VLJ от Meta: негенеративная модель, которая думает смыслом, а не токенами
VLJ от Meta: негенеративная модель, которая думает смыслом, а не токенами
Ян Лекан покидает Meta, чтобы создать собственный AI-стартап. Перед уходом он опубликовал статью в соавторстве с исследователями из Meta FAIR — и она описывает архитектуру, которая может изменить всё.
Модель называется VLJ (Vision Language Joint). В отличие от ChatGPT и других LLM, которые генерируют ответы слово за словом, VLJ предсказывает смысл напрямую. Без токенов. Без построения предложения по буквам. Обучение — в семантическом пространстве, а не в пространстве текста. Результат: при вдвое меньшем количестве параметров модель показывает более высокое качество понимания видео, чем традиционные vision language модели. Это может быть первый шаг к тому, что Ян Лекан называет «после LLM».
Что такое негенеративная модель и почему это важно
Классическая LLM работает так: вы задаёте вопрос, и модель «проговаривает» ответ — слово за словом, токен за токеном. Она не знает финальный ответ, пока не сгенерирует его целиком. Это как если бы человек начинал фразу, ещё не зная, чем она закончится. Отсюда медлительность и бессвязность длинных ответов, отсюда же галлюцинации — модель «додумывает» текст, а не извлекает факт.
Генеративная модель вынуждена конструировать ответ по мере продвижения. Сначала первое слово, потом второе, и так далее — каждое следующее слово зависит от всех предыдущих. Это создаёт фундаментальное ограничение: модель не может «увидеть» финальный смысл, пока не построит его текстовую оболочку целиком. И всё это время модель тратит вычислительные ресурсы на производство текста, а не на понимание.
VLJ устроена принципиально иначе. Модель строит внутреннее понимание того, что видит — изображения, видео, — а затем преобразует это понимание в слова только по запросу. Обучение происходит в семантическом пространстве, а не в пространстве токенов. Это позволяет думать о смысле, не тратя вычислительные ресурсы на его озвучивание. Как объясняет автор видео: «Generative AI — это "позволь объяснить, что я думаю, пока ещё разбираюсь". Non-generative AI — это "я уже понял, объясню, если спросишь"».
Сам Ян Лекан не раз формулировал этот принцип: «Язык — это не интеллект. Интеллект равен пониманию мира, а язык — просто формат вывода». VLJ — первая крупная реализация этой философии в виде работающей модели от его лаборатории. До этого подобные идеи звучали в академических кругах, но никто не демонстрировал их на бенчмарках с конкурентоспособными результатами.
VLJ в сравнении с дешёвыми vision-моделями
Типичная бюджетная vision-модель работает по схеме «кадр — описание — кадр — описание». Она смотрит на каждый кадр, угадывает, что видит, и тут же выдаёт текст. Результат: «рука», «бутылка», «берёт бутылку», «бутылка», «бутылка» — дёргано, противоречиво, без памяти. Модель реагирует на каждый кадр отдельно, но не понимает, что происходит между ними.
VLJ вместо этого отслеживает смысл непрерывно. На визуализации из статьи это выглядит так: красные точки — быстрые догадки для каждого кадра, синие — стабилизировавшееся понимание. Сначала модель выдаёт предварительную метку (красная точка, «это бутылка»), затем, когда накапливается достаточно данных от соседних кадров, смысл стабилизируется (синяя точка, «это канистра») — и только тогда выдаётся финальная метка действия.
Не «вижу бутылку, вижу бутылку, вижу бутылку», а «он берёт канистру». Первая модель думает отдельными кадрами и не понимает «было — стало». VLJ мыслит в терминах временного смысла и точно знает, когда действие начинается, продолжается и заканчивается.
Киллер-разница — фактор времени. Бюджетная vision-модель думает в единицах отдельных кадров. VLJ думает в единицах событий. Для робототехники, носительных устройств и агентов в реальном мире эта разница критична. Бюджетная vision-модель — это как датчик движения на камере видеонаблюдения, который кричит догадки при каждом движении. VLJ — как человек, который смотрит и говорит: «А, он берёт канистру». Первый реагирует, второй понимает.
Архитектура Jepper: X encoder, predictor, Y encoder
VLJ построена на архитектуре совместного встраивания и прогнозирования Jepper (Joint Embedding Predictive architecture) — расширении VJA. Базовый принцип: визуальный вход проходит через X encoder, текстовый запрос — через Y encoder, и модель учится предсказывать смысловой вектор напрямую через predictor. Во время инференса Y encoder отключается — модели достаточно визуального потока.
Прогнозирующий блок (predictor) содержит всего 0,5 миллиарда параметров. Общий размер VLJ — 1,6 миллиарда параметров при 2 миллиардах обработанных сцен. Это в разы меньше, чем у традиционных vision language моделей, которые используют тяжёлые декодеры для генерации текста. Во время обучения VLJ не нужен декодер, который превращает скрытое состояние в предложение — только encoder смысла и predictor.
На задаче zero-shot video captioning Jepper учится быстрее и достигает более высокого качества, чем модели, предсказывающие следующее слово. На zero-shot video classification VLJ также быстро вырывается вперёд, в то время как традиционные vision language модели улучшаются медленно и линейно. Даже без дополнительной настройки VLJ понимает видео лучше, что убивает идею о том, что токен-генерация необходима для понимания.
Ян Лекан на презентации отметил: «Четырёхлетний ребёнок видит столько визуальных данных, сколько содержится во всём тексте, на котором обучены крупнейшие LLM. При этом информация в реальном мире сложнее: она шумнее, выше по размерности, непрерывна. Методы, которые отлично работают для дискретного текста — предсказание следующего токена — не работают в физическом мире».
Почему это важно для робототехники и агентов
VLJ открывает путь к системам, которые работают в реальном мире — с камерами, датчиками, роботами. Текущие LLM думают текстом, а агентам нужны действия в непрерывном физическом пространстве. Модель должна понимать, что происходит вокруг, без задержки на генерацию слов.
Когда вы взаимодействуете с роботом или автономным агентом в реальном времени, у вас нет нескольких секунд на генерацию текстового описания каждого действия. Система должна понимать визуальный поток непрерывно и принимать решения на основе смысла, а не текста. VLJ позволяет делать именно это: непрерывное смысловое понимание без генерационной задержки.
Кроме того, VLJ может работать «безмолвно» — модель способна накапливать понимание без вербализации. Это принципиально отличается от текстовых моделей, где каждое промежуточное состояние должно быть выражено в токенах. Для систем, которые действуют, а не объясняют, это критично.
Если VLJ или её наследники будут масштабированы, это может изменить архитектуру автономных систем. Вместо связки «vision model → text → reasoning → action» появится прямой путь «vision → semantic understanding → action». Меньше звеньев, меньше задержка, меньше потерь при конвертации между модальностями.
Язык как вывод, а не как мышление
Главная философская посылка VLJ: язык — вывод, понимание — суть. LLM думают токенами — последовательностями слов. VLJ думает смысловыми векторами. Язык становится одним из возможных выходных форматов, а не единственным способом представления знаний.
Это имеет далеко идущие последствия. Если модель не привязана к языковому представлению, она может работать с любым типом данных — видео, аудио, тактильные ощущения, показания датчиков — и конвертировать понимание в язык только когда это необходимо. Мультимодальность перестаёт быть «добавлением» к языковой модели и становится встроенной в архитектуру.
До VLJ большинство мультимодальных моделей представляли собой комбинацию LLM с vision-энкодером: картинка конвертируется в текстовое описание, LLM рассуждает на основе текста. VLJ убирает это узкое место — визуальный поток идёт напрямую в смысловое пространство без вербализации.
Ограничения и открытые вопросы
VLJ находится в стадии исследования. Модель не опубликована в открытом доступе и не доступна через API. Статья описывает подход и демонстрирует результаты на бенчмарках, но до практического применения ещё далеко.
Неясно, как VLJ будет работать с complex reasoning — способностью к многошаговому логическому выводу. Предсказание смысла хорошо справляется с пониманием видео, но для планирования действий, возможно, потребуется гибридный подход. Также остаётся вопрос масштабирования: показывает ли архитектура такие же результаты при увеличении числа параметров до масштаба GPT-4?
Кроме того, Jepper эффективна для vision-задач, но для чисто текстовых задач — написание кода, анализ документов, сложные рассуждения — LLM остаются более подходящими. VLJ — это не замена LLM, а специализированная архитектура для задач, где языковое представление является узким местом.
Часто задаваемые вопросы
Чем VLJ отличается от GPT-4o и других мультимодальных моделей?
GPT-4o всё ещё генеративная модель — она предсказывает следующий токен, в том числе визуальный. VLJ полностью отказывается от генерации токенов для понимания видео и предсказывает смысл напрямую. Это принципиально другая архитектура, а не улучшение той же идеи.
Когда можно будет использовать VLJ?
На данный момент это исследовательский проект Meta FAIR. Модель не опубликована в открытом доступе и не доступна через API. Следить за развитием стоит на arXiv и в репозитории Meta FAIR на GitHub.
Почему это называют «после LLM»?
Потому что VLJ не использует языковое представление для мышления. LLM думают токенами — последовательностями слов. VLJ думает смысловыми векторами. Если этот подход масштабируется, он может оказаться более эффективным путём к общему интеллекту — особенно для систем, работающих в физическом мире.
Может ли VLJ заменить LLM в каких-то задачах?
Пока VLJ специализируется на понимании видео и изображений. Для текстовых задач — написание кода, анализ документов, диалог — LLM остаются более эффективными. VLJ — это не замена LLM, а дополнение для задач, где языковое представление является узким местом.
Итог
VLJ — не просто ещё одна модель от Meta. Это архитектурная заявка на то, что интеллект не обязан быть языковым. Ян Лекан перед уходом из компании сформулировал принцип: язык — вывод, понимание — суть. Если сообщество подхватит это направление, следующие несколько лет могут оказаться периодом принципиально иного взгляда на то, как строить AI-системы.
Ключевой практический вывод: для задач, связанных с видеопотоком, робототехникой и агентами в реальном мире, подход VLJ может оказаться значительно эффективнее генеративных моделей. Следить за развитием VLJ и родственных архитектур стоит всем, кто работает с мультимодальными системами и планирует системы следующего поколения.