AI набирает 30% от человека в играх: почему LLM проваливают GameBench

AI набирает 30% от человека в играх: почему LLM проваливают GameBench

Представьте: вы играете в Pong. Мяч летит слева направо, вы двигаете платформу вверх-вниз. Среднестатистический человек осваивает это за секунды. Теперь представьте, что у вас есть минута на каждое движение, вы можете остановить игру и подумать перед каждым ударом, и при этом вы — одна из самых умных AI-систем в мире. Результат? Менее 10% от того, что показывает обычный человек без всякой подготовки.

Именно это показало исследование AI GAMESTORE — новый бенчмарк от MIT, Гарварда, University of British Columbia, Принстона, Кембриджа и других университетов. Передовые языковые модели проваливают простые аркадные игры, и разрыв не сокращается — он измеряется порядками. Менее 10% от человеческого бейслайна при 10-кратном преимуществе во времени. Это не неудача теста — это диагноз фундаментальных ограничений современной AI-архитектуры.

Что такое AI GAMESTORE

Команда из семи университетов задалась вопросом: как измерить способность AI к решению задач в динамических, визуальных, реального-времени средах? Традиционные бенчмарки вроде MMLU или HumanEval тестируют статичные навыки — ответ на вопрос, написание кода. Но реальный мир требует непрерывного взаимодействия с окружающей средой: роботы берут объекты, автомобили объезжают препятствия, агенты принимают решения в меняющихся условиях. Нужен был бенчмарк, который это моделирует.

За основу взяли игры — они идеальный полигон: измеримый результат, понятные правила, визуальная обратная связь, воспроизводимость. Из 7 500 игр в App Store отобрали 100, соответствующих критериям: 10 000+ отзывов, рейтинг 4.5+, возможность пройти за несколько минут, измеримый результат, отсутствие специфических знаний вроде правил покера или шахматных комбинаций. Каждую игру упростили и воссоздали в p5.js — библиотеке для создания браузерной графики, которая позволяет быстро прототипировать игровую механику и логировать действия агента.

Генерация сама по себе примечательна. Claude 4.5 Sonnet читал описания игр и автоматически создавал веб-версию. Gemini Flash 2.5 фильтровал входные 7 500 игр по четырём критериям: можно ли пройти за несколько минут, можно ли воссоздать в p5.js, есть ли измеримый результат, не требуются ли специфические знания. Затем человек играл в прототип, фиксировал баги и через итеративные промпты к LLM улучшал игру. В среднем — 4.7 итерации. Полный цикл от идеи до готового бенчмарка на одну игру — около 30 минут. 100 игр — это 50 человеко-часов, но с AI-ускорением. Без AI на создание такого количества игровых сред ушли бы месяцы.

Полученные игры разметили по семи типам когнитивной нагрузки: VP (визуальная обработка), ST (пространственно-временная координация), ME (память), PL (планирование), WM (построение модели мира), PH (физические рассуждения), SO (социальный интеллект). Это позволяет понять, где именно AI слаб, а не только констатировать общий провал.

Результаты: катастрофа по всем фронтам

Протестировали шесть передовых моделей: GPT-5.2, GPT-5-Mini, Gemini-2.5-Flash, Claude Opus 4.5, Qwen-VL-32B и Llama-4-Maverick. Сравнивали примерно со 100 людьми. Результат: геометрическое среднее для топ-моделей составило менее 10% от человеческого бейслайна. Менее 10%. Это не «чуть хуже» — это пропасть, которую нельзя списать на погрешность измерений.

Важно понимать условия, потому что они не в пользу людей. Люди играли в реальном времени: 120 секунд на каждую игру, непрерывно, без пауз. LLM получили существенно более мягкие условия — паузу каждую секунду с возможностью обдумать следующие 0.2 секунды геймплея, итого 120 API-вызовов на игру. Исследователи описывают дискретный режим для LLM так: «Мы приостанавливали игру каждую секунду, запрашивали у модели пять списков действий на следующие 0.2 секунды, затем применяли действия и возобновляли игру». Это не сравнение на равных. Это дать AI калькулятор в гонке с человеком, который складывает в уме — и потом удивляться, почему человек быстрее.

Разрыв во времени колоссален. Люди тратили 2 минуты на игру. LLM — минимум 20 минут: несколько минут на «обдумывание» плюс задержка ответа на каждый API-вызов. 120 API-вызовов по несколько секунд каждый — вот и набегает 20 минут. Человек за это время проходит 10 игр. Все типы когнитивной нагрузки оказались сложными: визуальная обработка, пространственно-временная координация, память, планирование, построение моделей мира, физические рассуждения, социальный интеллект. Модели хуже людей по всем направлениям.

Почему AI так плох в играх

Визуальная обработка в реальном времени — первая и главная проблема. LLM обучены на статичных изображениях и текстах. Они могут описать, что происходит на картинке, но не могут отслеживать множество объектов, их движение и взаимодействие непрерывно, second by second. В Pong это один мяч и одна платформа — и это уже сложная задача для AI. Что говорить про игры с десятками объектов, меняющих позиции каждую секунду, с коллизиями, физикой, обратной связью.

Вторая проблема — latency. Attention-механизм в трансформерах плохо подходит для непрерывных потоков данных. Модель может рассуждать о стратегии в пошаговых играх, где есть время подумать перед ходом. Но когда решения нужны каждые 0.2 секунды, архитектура не справляется. Время на «обдумывание» убивает производительность: модель думает дольше, чем нужно, а потом всё равно ошибается. Это фундаментальное ограничение — attention вычисляет все попарные взаимодействия в последовательности, что даёт квадратичную сложность и не подходит для real-time.

Третья — воплощённое знание. Люди понимают физику через опыт: как отскакивает мяч, как работает гравитация, как ведёт себя объект при столкновении. Это знание встроено в нашу нервную систему через миллионы лет эволюции и годы личного опыта. Мы не вычисляем траекторию мяча — мы интуитивно чувствуем её. LLM знают физику из уравнений в текстах, но не умеют применять её мгновенно и корректно в новых ситуациях. Это не баг, который можно исправить датасетом — это следствие того, что у моделей нет тела и опыта взаимодействия с миром.

Четвёртая — проблема reward shaping. В играх reward определяется чётко: очки, победа, время. LLM оптимизируют под метрику, но когда метрика не совпадает с реальной целью, возникают субоптимальные стратегии. Модель находит локальный максимум — способ набирать очки, который не ведёт к победе — и застревает в нём. Это хорошо известная проблема в RL, и GAMESTORE показывает, что она проявляется даже в простых аркадных играх.

Как это связано с Physical Intelligence и робототехникой

В том же выпуске Import AI исследователи описывают Physical Intelligence — стартап, который показывает, как AI работает в робототехнике прямо сейчас. Amazonfulfillment.com использует их VLA-модели (vision-language-action) для упаковки e-commerce заказов. Weave — для складывания белья. Результаты впечатляют: меньше вмешательств человека, лучше качество складки, сокращение времени на операцию.

Парадокс: почему VLA работают в робототехнике, но проваливаются в играх? Потому что у роботов есть время. Робот планирует, принимает решение, исполняет. Цикл может занимать секунды или минуты — и это нормально для задачи упаковки или складывания. attention-архитектура справляется, когда есть фора во времени. Игры требуют реакции за 0.2 секунды — и здесь текущая архитектура нежизнеспособна без принципиальных изменений.

Исследователи из Physical Intelligence объясняют это так: «Large variability in workflow, item types, deformable packaging, and external machinery have created a long tail of problems that have been intractable to solve with traditional automation techniques which are often too rigid to be practical». VLA дают способ решать это через recipe, который улучшается с объёмом данных, а не через инженерные часы. Это фундаментально иной подход к автоматизации — и он работает именно потому, что у робота есть время на планирование.

Что это значит для бенчмаркинга

AI GAMESTORE — это не просто демонстрация слабости. Это прототип нового класса бенчмарков: динамических, средовых, открытых. Традиционные тесты (MMLU, HumanEval, GSM8K) проверяют узкие статичные навыки. Они полезны и воспроизводимы, но не моделируют реальное применение AI в роботах, агентах, автономных системах. Если мы хотим измерять прогресс в реальном мире — нужно тестировать в условиях, приближённых к реальности.

Динамические бенчмарки будут расти. По мере того как AI внедряется в реальный мир, нужны инструменты измерения прогресса. GAMESTORE показывает один путь: AI генерирует AI-среды для тестирования AI. Рекурсия, которая одновременно практична и методологически любопытна. 30 минут на игру — это на порядки быстрее, чем ручная разработка. GPT-5.2 тратит 20 минут на одну игру — но его тратят на прохождение, а не на создание бенчмарка.

Архитектурные ограничения

Разрыв в 10x по производительности и 10x по времени — это не случайность. Это следствие фундаментальных ограничений attention-архитектуры. Модели с attention хорошо работают там, где можно «посмотреть на всё сразу и подумать». Они критически плохи в задачах, где среда меняется быстрее, чем модель успевает обработать входные данные.

Курс на agentic AI усугубляет проблему. Современные агенты — это LLM с tool access и памятью. Они отлично справляются с задачами, где можно остановиться и подумать: написать код, проанализировать документ, провести исследование. Они критически плохи в задачах, где среда меняется быстрее, чем модель обрабатывает входы:low-latency vision, physical control, real-time navigation.

AGI, который работает в реальном времени наравне с человеком, требует другой архитектуры. State Space Models (Mamba), жидкостные нейросети, архитектуры с явным modeling времени — это направления исследований, которые могут закрыть разрыв. Но пока attention остаётся доминирующей парадигмой, real-time AI будет оставаться узким местом.

Почему это важно знать

Мы живём в эпоху, когда AI хайп достигает максимума. Каждый месяц модели становятся умнее на бумаге — новые бенчмарки, новые рекорды, новые способности. GAMESTORE напоминает о том, что есть огромный класс задач, где современные модели беспомощны. Не потому что они «ещё не доросли» — а потому что архитектура принципиально не подходит.

Это не повод для пессимизма. Это повод для реализма. AI GAMESTORE — это инструмент, который помогает понять, где именно AI слаб. Без такого понимания мы будем переоценивать возможности моделей и строить системы на хрупком фундаменте. С таким пониманием — сможем ставить реалистичные ожидания и выбирать правильные архитектуры для правильных задач.

Часто задаваемые вопросы

Означает ли это, что AI бесполезен для робототехники?

Напротив. Physical Intelligence уже показывает, что VLA-модели работают на реальных роботах. Amazonfulfillment.com использует их для упаковки заказов, Weave — для белья. Ключевое отличие: у роботов есть время на планирование. Робот не решает задачу за 0.2 секунды — у него секунды и минуты. attention-архитектура справляется, когда есть фора во времени. Проблема исключительно в сценариях real-time — игры, вождение, спорт, любая задача с жёстким latency-бюджетом.

Почему именно p5.js?

p5.js — библиотека для прототипирования визуальных приложений в браузере. Авторам нужен был простой способ превратить мобильные игры в веб-среду с логированием действий агента. 30-минутный цикл генерации и верификации — масштабируемый подход. Это не единственный инструмент, но для бенчмаркинга он подходит идеально: быстро, открыто, воспроизводимо, легко масштабируется.

Может ли AI улучшиться через fine-tuning?

Частично — да. GAMESTORE выявляет конкретные слабости: визуальный processing в реальном времени, быстрое принятие решений, физическая интуиция. Модели, специально обученные на играх или с архитектурными изменениями для vision input в реальном времени, сократят разрыв. Но фундаментальная проблема — архитектура attention для непрерывных потоков данных — потребует серьёзных изменений в базовых моделях. Маловероятно, что одна только настройка на games-датасете закроет 10x gap.

Зачем AI генерирует игры для тестирования AI?

Потому что это масштабируется. Ручная разработка 100 игровых сред заняла бы месяцы экспертов-разработчиков. Claude 4.5 Sonnet плюс Gemini Flash 2.5 плюс человеческая валидация равно 30 минут на игру. При этом AI генерирует вариативность, которую человек не предусмотрел бы. Это и практично (быстро), и методологически любопытно (AI помогает измерять AI). Рекурсия становится инструментом.

Итог

AI GAMESTORE — это диагноз, а не просто бенчмарк. Менее 10% от человеческого бейслайна при 10-кратном преимуществе во времени — это фундаментальный разрыв в архитектуре. Мы построили системы, которые могут рассуждать о квантовой физике и писать поэзию, но не могут прицельно ударить по движущейся мишени. Attention-архитектура, которая изменила NLP, не подходит для реального времени.

Но исследование предлагает и позитивный сигнал: AI-генерируемые среды тестирования — масштабируемый путь к новым бенчмаркам. Если мы хотим измерять прогресс в реальном мире, нужны инструменты, которые этот мир моделируют. AI GAMESTORE — первый шаг к динамическому, средовому бенчмаркингу. И одновременно — напоминание о том, как далеко мы от AI, который действительно работает как человек.

← Все записи