Почему мультимодальность не приведёт к AGI: разбор статьи из The Gradient
В июне 2025 года журнал The Gradient опубликовал статью аспиранта Brown University Бенджамина Шпигеля с провокационным тезисом: мультимодальное масштабирование не приведёт к AGI. Пока индустрия ставит на объединение языка, зрения и действия в единую модель, Шпигель утверждает, что этот путь упирается в стену — потому что современные системы не понимают мир, они лишь имитируют понимание через статистику символов. Разбираем аргументы и следствия.
Что такое мультимодальный подход к AGI
Мультимодальные модели — GPT-4o, Gemini, Claude — объединяют обработку текста, изображений, аудио и видео в одной архитектуре. Логика проста: если языковая модель демонстрирует «общий» интеллект на тексте, то добавление зрения и действия сделает интеллект ещё общее. Некоторые исследователи считают, что достаточно масштабировать такую систему, и она станет AGI — системой, способной решать любые интеллектуальные задачи на уровне человека.
Шпигель называет эту позицию scale maximalism — максимализм масштаба. Его критика направлена не против масштабирования как такового, а против убеждения, что масштабирование мультимодальных моделей автоматически породит воплощённый интеллект, способный к сенсомоторному рассуждению, планированию движений и социальной координации.
Почему LLM не моделируют мир
Главный аргумент статьи — разрыв между синтаксисом и семантикой. LLM обучаются предсказывать следующий токен, и на первый взгляд кажется, что для этого нужно понимать мир. Но Шпигель приводит контрпримеры.
Известная работа OthelloGPT показала, что трансформер, обученный на последовательностях ходов в Отелло, восстанавливает состояние доски из скрытых представлений. Это часто интерпретируют как доказательство внутреннего мирового моделирования. Проблема в том, что Отелло — игра чисто символическая. Полное состояние доски восстанавливается из ходов доказуемо, потому что правила формальны и замкнуты. Физический мир так не работает: нельзя вывести полную картину реальности из текстового описания, потому что язык не содержит всей необходимой информации.
Более того, исследования показывают, что генеративные модели могут превосходно предсказывать последовательности, не выстраивая при этом модель мира, породившего эти последовательности. Достаточно запомнить набор эвристик — статистических закономерностей в данных. OthelloGPT, например, усвоила правило «если токен B4 не встречается перед A4, то B4 пуста», которое работает для большинства игр в обучающей выборке, но не для всех возможных. Это не модель мира, а модель синтаксиса — запоминание статистических паттернов символов.
Шпигель проводит параллель с лингвистикой. Синтаксис изучает структуру предложений, семантика — их буквальное значение, прагматика — интерпретацию в контексте среды и намерений собеседника. LLM, по его мнению, овладели синтаксисом на уровне, неотличимом от человеческого, но семантика и прагматика у них либо отсутствуют, либо эмулируются через синтаксические паттерны. Предложение «Бесцветные зелёные идеи яростно спят» — грамматически корректно, но семантически бессмысленно. LLM распознают это не потому, что понимают смысл, а потому что встречали похожие конструкции в корпусе.
Горький урок Саттона и его неправильное прочтение
Рич Саттон в эссе «The Bitter Lesson» утверждал, что методы, использующие вычислительные ресурсы, со временем побеждают методы, использующие человеческие знания. Scale maximalists интерпретируют это как лицензию на полный структурный агностицизм: мол, не нужно думать об архитектуре интеллекта, нужно просто добавить данных и параметров.
Шпигель напоминает, что именно структурные интуиции человека дали ключевые прорывы: свёрточные сети основаны на предположении о трансляционной инвариантности в зрении, механизм внимания — на предположении о дальних зависимостях в языке, 3D Gaussian Splatting — на предположении о физической сплошности объектов. Все эти методы работают потому, что их структура отражает реальность, а не потому, что они структурно нейтральны.
Мультимодальные модели, напротив, делают неявные структурные предположения, которые могут быть неверны. Они кодируют текст и изображения в общее латентное пространство, предполагая, что «значение» перцепта заключено в его векторе. Но значение не в векторе — оно в том, как декодеры превращают вектор в осмысленный вывод. Пока энкодеры и декодеры обучаются модальностно-специфичным целям, «значение» остаётся децентрализованным и потенциально противоречивым между модальностями.
Почему модальности нельзя просто склеить
Современные мультимодальные системы предобучают отдельные нейронные модули для каждой модальности, а затем объединяют их в совместное эмбеддинговое пространство. Ранние подходы использовали контрастивное обучение: пары (текст, изображение, действие) подталкивали к близким векторам. Но такая стратегия не отражает реальную сложность отношений между модальностями.
Одно изображение можно описать на разных уровнях абстракции. Одну и ту же языковую инструкцию можно выполнить разными наборами физических действий. Такие отношения «один-ко-многим» означают, что контрастивная цель — слишком грубое приближение. Современные подходы избегают жёстких предположений, но по-прежнему кодируют все модальности в одно пространство, что ведёт к потере информации, специфичной для каждого типа восприятия.
Шпигель идёт дальше: он ставит под сомнение само разделение на модальности. Неочевидно, что изображения и текст должны быть отдельными потоками наблюдений, а генерация текста и планирование движения — отдельными способностями действия. Человеческие способности к чтению, зрению, речи и движению опосредованы перекрывающимися когнитивными структурами. Разделение на модальности — инженерное удобство, а не когнитивная реальность. Модель, которая по-настоящему понимает визуальный мир, не должна делать архитектурного различия между изображениями и текстом — именно поэтому VLM не могут, например, посчитать буквы в слове: они не «видят» то, что «пишут».
Что предлагается вместо мультимодальности
Альтернатива — не улучшать склейку модальностей, а отказаться от их искусственного разделения. Шпигель предлагает обрабатывать изображения, текст и видео через единую систему восприятия, а генерировать текст, манипулировать объектами и перемещаться в пространстве — через единую систему действий. Такой подход потеряет в эффективности на узких задачах, но приобретёт гибкость когнитивного обобщения.
Ключевой ингредиент — воплощённость (embodiment) и взаимодействие со средой. Вместо обучения на конечном продукте человеческой культуры — текстах, изображениях, видео — система должна учиться формировать концепции из опыта, как это делают люди. Человек может выучить новое понятие по нескольким примерам, дать ему имя, рассуждать о нём аналогически. LLM теряются, когда задача отклоняется от обучающих данных. Гибкость порождения новых концепций из опыта — фундаментальный атрибут общего интеллекта.
Шпигель ссылается на собственную работу по визуальной теории разума, где абстрактные символы естественным образом возникали из коммуникации между агентами, классифицирующими изображения. Границы между текстом и зрением размывались без явного программирования — как побочный эффект взаимодействия, а не как результат склейки модулей.
Практические следствия для индустрии
Если аргументы Шпигеля верны, текущая дорожная карта ведущих лабораторий содержит фундаментальный изъян. Мультимодальные модели будут продолжать улучшаться на бенчмарках, но не приближатся к способности ремонтировать автомобиль, развязывать узел или готовить еду — задачам, требующим физического понимания мира. Коммерческие приложения вроде чат-ботов, генерации кода и анализа документов будут работать прекрасно, потому что они остаются в символической зоне комфорта. Но агенты, взаимодействующие с физической реальностью, столкнутся с потолком, который масштабирование не пробьёт.
Для разработчиков это означает, что выбор архитектуры имеет значение. Не всякая задача решается большей моделью. Системы, работающие с робототехникой, автономным вождением или манипуляцией объектами, должны строиться на принципах воплощённого интеллекта — с мировыми моделями, которые предсказывают физическое состояние, а не следующий токен.
Часто задаваемые вопросы
Разве мультимодальные модели уже не показывают признаки понимания мира?
Они показывают признаки понимания языковых описаний мира, что не то же самое. Когда модель описывает изображение или отвечает на вопрос о видео, она оперирует статистическими корреляциями между модальностями, а не внутренним физическим моделированием. Это впечатляющая способность, но не эквивалентна пониманию причинно-следственных механизмов физической реальности.
Может ли масштабирование eventually преодолеть этот барьер?
Шпигель допускает, что масштабирование может привести к неожиданным способностям, но считает это маловероятным для физического интеллекта. Проблема не в количестве параметров, а в типе данных: текущие корпусы содержат конечные продукты человеческого интеллекта, а не процесс его формирования. Без данных о взаимодействии со средой масштабирование лишь лучше аппроксимирует человеческие концепции, но не научится порождать новые.
Что такое «воплощённый интеллект» в практическом смысле?
Система, которая учится через сенсомоторный контур: воспринимает окружающую среду, совершает действия, наблюдает последствия и корректирует внутреннюю модель мира. Это может быть робот, симуляция или виртуальный агент — главное, что обучение происходит через интерактивный опыт, а не пассивное потребление данных.
Итог
Статья Бенджамина Шпигеля в The Gradient — редкий пример фундаментальной критики, адресованной не конкретной модели, а всей парадигме. Тезис прост: AGI требует понимания физического мира, а мультимодальное масштабирование предлагает лишь всё более убедительную имитацию такого понимания. Разница между синтаксисом и семантикой, между запоминанием паттернов и моделированием реальности — это не академический спор, а практический выбор, который определит, какие задачи ИИ решит в ближайшие десятилетия, а какие останутся за чертой.
Для тех, кто строит агентные системы, вывод очевиден: не ждите, что следующая версия GPT научится физическому рассуждению. Если ваша задача требует взаимодействия с реальностью — инвестируйте в мировые модели, симуляции и сенсомоторные контуры, а не в промпты для мультимодальной модели.