Pelican-Unified 1.0: один мозг для понимания, рассуждения и действия

Pelican-Unified 1.0: один мозг для понимания, рассуждения и действия

Большинство роботизированных систем до сих пор собираются из отдельных кирпичиков: одна модель смотрит на мир, другая планирует, третья предсказывает будущее, четвёртая двигает рукой. Каждый кирпичик тренируется изолированно, а потом инженеры мучительно подгоняют интерфейсы между ними. Pelican-Unified 1.0 — это попытка сломать эту традицию. Авторы из китайской исследовательской группы представили первую embodied foundation model, где понимание сцены, рассуждение, воображение и действие обучаются как единое целое через одно общее представление. И удивительно: унификация не ведёт к компромиссу. На восьми VLM-бенчмарках модель набирает 64.7 — лучший результат среди сопоставимых по размеру моделей. На WorldArena она занимает первое место с EWM Score 66.03. А на роботизированном бенчмарке RoboTwin достигает 93.5% успеха, уступая лишь специализированным политикам.

Что такое Pelican-Unified 1.0

Pelican-Unified 1.0 — это архитектура, построенная вокруг одного принципа: физический интеллект не должен состоять из фрагментированных умений. Вместо того чтобы тренировать отдельного эксперта на восприятие, отдельного на планирование и отдельного на моторику, авторы используют одну VLM (Qwen3-VL 4B) в трёх ролях одновременно.

Первая роль — понимание. Модель получает изображение сцены, текстовую инструкцию и историю предыдущих действий, и отображает всё это в единое семантическое пространство. Вторая роль — рассуждение: та же VLM ауторегрессивно строит цепочку мыслей, ориентированную на задачу, действие и будущее, проецируя финальное скрытое состояние в плотную латентную переменную z. Третья роль — воображение и действие: Unified Future Generator (UFG) условится на этой переменной и совместно генерирует будущее видео и траекторию действий через два модальностных выходных головы в рамках одного процесса денойзинга.

Ключевое отличие от существующих подходов — обратное распространение ошибки. Языковые, видео- и action-потери все течьют в общее представление, а не в изолированные подсети. Это значит, что когда модель учится предсказывать будущее видео, она одновременно улучшает своё понимание текущей сцены и своё рассуждение о задаче. Обратная связь замыкает петлю.

Почему фрагментированные системы упираются в потолок

Современные подходы к embodied AI делятся на три лагеря, и у каждого есть фундаментальное ограничение. VLA-модели (Vision-Language-Action) напрямую отображают наблюдения и инструкции в действия. Они эффективны для имитационного обучения, но supervision формирует только «лицо действия» — модель не учится рассуждать о физике мира и не строит внутренних симуляций. Когда сцена меняется незначительно — другой ракурс, новый объект, изменённое освещение — такие модели часто ломаются, потому что их политика не опирается на понимание причинно-следственных связей.

WAM-модели (World-Action Models) совместно предсказывают будущее видео и действия, но их латентное состояние не несёт явного процесса рассуждения. Они воображают, но не думают перед тем как вообразить. Это ограничивает их способность к долгосрочному планированию: модель может предсказать, что произойдёт через секунду, но не способна объяснить, почему это произойдёт, и не может использовать это объяснение для корректировки стратегии на горизонте в десятки шагов.

Наконец, модульные пайплайны собирают отдельных специалистов — планировщик, world model, политика — и пытаются склеить их интерфейсами. Результат предсказуем: zero-shot перенос, композиционное использование навыков и долгосрочная когерентность остаются недостижимыми, потому что каждый модуль оптимизирован локально, а не под замкнутый цикл. Улучшение планировщика не обязательно улучшает политику, а новый world model может оказаться несовместим со старым интерфейсом действий. Инженеры тратят месяцы на подгонку границ между модулями вместо того, чтобы улучшать само поведение системы.

Pelican-Unified решает эту проблему радикально: вместо того чтобы усиливать интерфейсы между модулями, он делает саму петлю обучаемым объектом. Понимание, рассуждение, воображение и действие коэволюционируют через общее представление. Когда модель учится действовать, она одновременно учится понимать последствия; когда учится понимать, она учится воображать будущее, которое зависит от её действий.

Как устроена архитектура изнутри

На уровне реализации Pelican-Unified состоит из трёх компонентов, работающих в едином конвейере. Первый — VLM reasoner на базе Qwen3-VL 4B. Он принимает наблюдение (изображение + инструкция) и строит task-conditioned prefill: цепочку мыслей, которая описывает, какое будущее должно произойти и какое действие его реализует. Финальное скрытое состояние этой цепочки проецируется в латентную переменную z, которая служит «сжатым замыслом» для всего оставшегося конвейера.

Второй компонент — Unified Future Generator (UFG). Это диффузионная модель, которая условится на z и генерирует два coupled continuous variable: видео-латент и траекторию действий. Два выходных головы — один для видео, другой для action — работают в рамках одного процесса денойзинга, что означает, что каждый шаг генерации видео влияет на генерацию действия и наоборот. Видео не просто декорирует действие; оно формирует его, сообщая модели, как будущее должно выглядеть.

Третий компонент — совместная оптимизация. В отличие от мультизадачного обучения, где потери от разных задач балансируются вручную, Pelican-Unified пропускает все сигналы через одно представление. Language loss, video loss и action loss все вычисляются относительно общих весов VLM. Это создаёт давление на представление: оно должно быть достаточно богатым, чтобы объяснять языковые выводы, достаточно структурированным, чтобы порождать видео, и достаточно точным, чтобы кодировать моторику.

Цифры: один чекпоинт против трёх специализаций

Авторы провели три отдельных оценки, чтобы проверить, не жертвует ли unified model специализацией. Результаты оказались неожиданными.

Как vision-language модель Pelican-Unified набирает средний score 64.7 на восьми мультимодальных бенчмарках — лучший результат среди моделей сопоставимого масштаба. На embodied-ориентированных задачах Where2Place и PhyX преимущество над базовой Qwen3-VL-4B-Instruct составляет +20.6 и +28.6 пунктов соответственно. Это говорит о том, что совместное обучение с action и video generation не ослабляет, а усиливает визуально-языковое понимание: модель учится видеть мир глазами агента, который должен действовать, а не просто описывать.

Как visuomotor политика на RoboTwin — 50-задачном бенчмарке для двуручных манипуляций — модель достигает 93.5% среднего успеха. Это второй результат среди всех сравниваемых методов, уступая лишь LingBot-VA (95.1%) и опережая starVLA (88.3%). При этом 31 из 50 задач выполняются с точностью ≥95%, 39 задач — с ≥90%, и 15 задач решаются идеально (100%). Важно, что это достигается без специализированной архитектуры для моторики — теми же весами, которые отвечают за языковое понимание.

Как world model на WorldArena Pelican-Unified занимает первое место с EWM Score 66.03. Он также лидирует по 3D Accuracy (98.57) и Physics Adherence (78.04). В слепой экспертной оценке генераций модель получает средний score 1.76 из 2.0 — лучший результат среди всех сравниваемых систем, с максимальным Task Success (1.81) и идеальной Controllability (2.00). Это означает, что эксперты не просто считают видео красивым, а признают его функционально адекватным задаче.

Реальный мир: UR5e и гуманоид Tienkung

Симуляторы лгут. Поэтому авторы протестировали систему на реальном промышленном роботе UR5e и гуманоиде Tienkung. Задачи включали манипуляции с промышленной панелью управления — переключатели, разъёмы, кнопки — в zero-shot режиме, без дообучения на конкретной установке.

Результат: unified модель показала существенно более сильную zero-shot, композиционную и долгосрочную производительность, чем лучший модульный baseline. В частности, Pelican-Unified справляется с точными задачами вставки коннекторов — водонепроницаемых, RJ45, USB — демонстрируя тонкое понимание физических ограничений и способность предсказывать правдоподобные будущие взаимодействия. Это именно тот тип задач, где модульные системы обычно ломаются: требуется одновременно понимать геометрию разъёма, рассуждать о последовательности движений, воображать результат вставки и генерировать точную моторную траекторию.

Авторы также провели эксперимент с обобщением: совместное обучение на пяти seen-задачах (по ~300 эпизодов каждая) и three unseen-задачах (по ~50 эпизодов). Модель сохраняла высокую точность выполнения при переносе на out-of-distribution сценарии — эффект, который модульные системы показывают значительно слабее. Способность обобщаться с минимальными данными на новую задачу — критическое свойство для промышленного развёртывания, где каждая новая установка уникальна.

Почему унификация работает лучше модульности

В разделе абляций авторы исследуют, какие компоненты unified-парадигмы дают наибольший вклад. Вывод неочевиден: самые ценные данные — не просто больше данных старого формата, а loop-closed данные, где наблюдения, инструкции, рассуждения, действия и будущие исходы аннотированы на одном примере. Такие данные ценны именно потому, что unified модель может поглощать их как связанный тренировочный сигнал — а связанная модель как раз и есть та система, которая в них нуждается.

Это создаёт положительную обратную связь: чем более unified модель, тем более loop-closed данные ей нужны; чем больше таких данных, тем сильнее преимущество unified подхода над модульным. В отличие от пайплайнов, где улучшение одного модуля не обязательно улучшает систему в целом, Pelican-Unified оптимизирует глобальную цель — замкнутый цикл понимание-рассуждение-воображение-действие. Архитектура не просто упрощает инженерию; она меняет то, какие данные становятся полезными, и создаёт экономику, в которой unified модели выигрывают от масштаба быстрее, чем модульные.

Часто задаваемые вопросы

В чём принципиальное отличие от обычных VLA-моделей?

Обычные VLA отображают наблюдения напрямую в действия без промежуточного рассуждения и воображения. Pelican-Unified вставляет между восприятием и действием два промежуточных слоя: явную цепочку мыслей (reasoning) и генерацию будущего видео (imagination), причём все три компонента обучаются совместно через общее представление. Это даёт интерпретируемость (мысли читаемы) и точность (видео контролирует действие).

Не проигрывает ли unified модель специализированным экспертам?

Нет. Эксперименты показывают, что на VLM-бенчмарках Pelican-Unified достигает лучшего среднего результата среди моделей своего масштаба, на WorldArena занимает первое место, а на RoboTwin — второе. Унификация сохраняет силу специалистов, добавляя интегрированное поведение, недоступное модульным системам. Компромисса нет — есть синергия.

Какие практические последствия для робототехники?

Главное следствие — снижение сложности разработки. Вместо проектирования интерфейсов между планировщиком, world model и политикой инженеры могут обучать одну модель на loop-closed данных. Это упрощает zero-shot перенос, композиционное использование навыков и долгосрочное планирование в реальных сценариях. Для промышленности это означает быструю адаптацию роботов к новым задачам без месяцев интеграции.

Итог

Pelican-Unified 1.0 — это не просто новая архитектура для робототехники. Это аргумент в пользу фундаментального сдвига: от сборки специалистов к обучению общего процесса, через который понимание, рассуждение, воображение и действие становятся одной адаптивной системой. Цифры говорят сами за себя: 64.7 на VLM, 66.03 на WorldArena, 93.5% на RoboTwin — и всё это с одним чекпоинтом. Следующий этап embodied AI, вероятно, будет определяться не размером отдельных модулей, а способностью учить общее представление, которое делает петлю замкнутой.

← Все записи
← Все записи