В феврале, когда Anthropic выпустил Sonnet 3.7, они в прямом эфире на Twitch показали, как он играет в Pokémon Red.
На днях Google заявили, что Gemini 2.5 Pro проходит Pokémon Blue тоже в прямом эфире на Twitch. Но зачем ИИ играть в Pokémon? Давайте разберёмся, что стоит за этим явлением. Игры Pokémon Red и Blue, вышедшие ещё в 1990-х, на первый взгляд кажутся простыми: лови покемонов, сражайся с тренерами, стань чемпионом.
Но за этой простотой скрывается сложность, которая делает их идеальной тестовой площадкой для ИИ: 1. Игроку нужно планировать: каких покемонов качать, какие атаки использовать, как управлять ограниченными ресурсами. Для ИИ это тест на способность принимать решения в условиях неопределённости. Чтобы победить, нужно думать на несколько шагов вперёд. Это проверяет способность ИИ к "рассуждениям" и оптимизации.
2. В Pokémon много случайных событий. ИИ должен уметь адаптироваться, что делает игру хорошей моделью для реальных задач, где тоже есть неопределённость. Anthropic прямо заявили, что Pokémon Red — это отличный способ протестировать их модель Claude 3.7 Sonnet на "extended thinking" (расширенное мышление).
Модель смогла победить трёх лидеров гимов, что стало значительным прогрессом по сравнению с предыдущей версией Claude, которая даже не могла выйти из стартового города. Хотя на первый взгляд это выглядит как забавный эксперимент, за ним стоят серьёзные цели. Игры давно используются для оценки ИИ: от шахмат (Deep Blue в 1997 году) до StarCraft (AlphaStar в 2019 году). Pokémon добавляет новый уровень сложности, потому что требует не только логики, но и импровизации.
Такие эксперименты помогают понять, в чём ИИ хорош, а в чём — люди. Это может привести к новым методам, которые потом применят в реальном мире. Не будем забывать и про поп-культурный аспект. Pokémon — это культовая франшиза, и стрим, где ИИ играет в неё, привлекает внимание. Кто-то шутит, что "AGI достигнуто, если ИИ сохранит мастер-бол для Мьюту", а кто-то удивляется, что модель уже прокачала Бластойза до 44-го уровня.
Это отсылка к легендарному Twitch Plays Pokémon (2014), но теперь вместо тысяч игроков за штурвалом — одна нейросеть. Для компаний это ещё и маркетинг. Google и Anthropic демонстрируют, что их модели способны не только решать скучные задачи, но и справляться с чем-то, что понятно и интересно широкой аудитории.