25.06.2026 Исследования

Action Priors для роботов: предобучение моторных примитивов до встречи с VLM

Когда инженер подключает большую языковую модель к роботу, ожидая волшебства, происходит ожидаемый провал: визуальное и языковое понимание работает отлично, а вот движение манипулятора напоминает первые шаги ребёнка — неуклюжие, медленные, с постоянными коррекциями. Причина простая: action-модуль учит физику движения почти с нуля, в то время как визуальный и языковой бэкбоны уже содержат триллионы параметров предобучения. В июне 2026 исследователи из KAIST и Carnegie Mellon опубликовали фреймворк, который решает эту проблему элегантно — сначала обучить моторные примитивы отдельно, затем подключить VLM.

Почему стандартные VLA проваливаются на кросс-эмбодименте

Современные Vision-Language-Action модели — RT-2, OpenVLA, Diffusion Policy, ACT — объединяют VLM-бэкбон с action-головой в единой архитектуре и оптимизируют всю систему end-to-end через behavioral cloning на данных конкретного робота. Проблема в том, что визуальные и языковые примитивы уже содержат богатое предобучение из интернет-масштабных данных, а action-голова стартует с чистого листа. В кросс-эмбодиментном сценарии — когда один policy должен работать на манипуляторе, гуманоиде и quadruped с разными action/state пространствами — это создаёт двойной вызов: нужно одновременно учить физику движения и выравнивать модальности.

Предыдущие попытки предобучить action-модуль отдельно требовали визуальных или языковых токенов на первом этапе, что фактически воспроизводило ту же проблему — моторные примитивы не могли учиться автономно. Идея «сначала научись двигаться, потом добавляй восприятие» звучит логично, но инженерно её было сложно реализовать без физического понимания того, что такое «правильное движение» без контекста задачи.

Двухэтапный фреймворк: Stage 1 — Flow Matching для Action Priors

Ключевая идея: обучить action-модуль без визуальных и языковых входов, используя только траектории действий. Архитектура Stage 1 — это lightweight flow-matching энкодер-декодер, который получает на вход последовательность состояний и действий (state-action history) и предсказывает следующее действие через непрерывное отображение в пространстве траекторий.

Flow matching — это метод генерации, который интерполирует между распределением шума и распределением данных через ODE (ordinary differential equation). В отличие от diffusion-моделей, которые итерируют по дискретным шагам, flow matching даёт однократный forward pass — что критично для робототехники, где задержка инференса напрямую влияет на безопасность. Если diffusion-модель требует 50–100 итераций для генерации одного действия, flow matching генерирует动作 за один проход. Это принципиальное различие для систем реального времени.

Энкодер сжимает history в один temporal context token, который работает как компактный компрессор состояния. Вместо рекуррентной обработки всего окна предыстории (что требует O(H) времени, где H — горизонт) temporal context token кодирует всю историю в фиксированный вектор. Это позволяет модели учитывать предыдущие действия без линейного роста вычислительных затрат — критично для роботов с длительными манипуляциями.

Stage 1 обучается только на сырых траекториях действий — без визуального входа, без языковых инструкций. Модель учит структуру моторного пространства: как физические системы генерируют плавные, стабильные движения. На выходе — prior физики движения, который можно переиспользовать независимо от embodiment. Это как если бы человек учился ходить не на конкретном роботе, а на абстрактной модели физического тела.

Stage 2 — подключение VLM и дистилляция латентного пространства

На втором этапе pretrained action encoder используется как инициализация для VLA training. VLM-бэкбон (Qwen3-VL или ModernBERT) обрабатывает визуальные наблюдения и текстовые инструкции, а action decoder дообучается с учётом визуально-языкового контекста.

Ключевой механизм — early-stage latent alignment distillation: латентные представления VLM-бэкбона выравниваются с уже обученным action embedding space через auxiliary loss. Это якорь ускоряет конвергенцию — VLM не нужно одновременно учить физику движения и модальное выравнивание. Без этого механизма оптимизатор сталкивается с конкурирующими целями: адаптировать визуальные представления под новую модальность и одновременноDiscover физику движения. С prior физики уже «вморожена» в action embedding, и VLM фокусируется только на выравнивании.

Ещё один артефакт Stage 2 — обученный энкодер работает как компактный history compressor. Вместо хранения полной последовательности state-action tuples для каждого timestep, система сжимает всю историю в один токен. Это критично для долгих манипуляций — задачи продолжительностью в минуты требуют обработки тысяч timestep'ов, и прямое хранение истории становится узким местом по памяти.

13 кросс-эмбодиментов: от симуляции до реального манипулятора

Экспериментальный дизайн включает три платформы: LIBERO (симуляция манипулятора), RoboCasa + GR1 (гуманоид в бытовой среде), и реальный Franka Panda. Все 13 задач охватывают разные типы embodiment, action/state пространства, сцены и распределения задач. LIBERO специализируется на манипуляции в бытовых сценах: открыть ящик, переложить предмет, активировать переключатель. RoboCasa добавляет бытовые сцены с роботом-гуманоидом GR1 в роли агента. Franka Panda — это реальный 7-DoF манипулятор, для которого собраны данные в том же формате.

Критически важно: модель обучается на полной кросс-эмбодиментной смеси, а тестируется на каждом бенчмарке без дополнительного fine-tuning. Это означает, что один и тот же policy, обученный на данных от манипулятора, quadruped и гуманоида, применяется к новой задаче на каждой из этих платформ без переобучения. Именно это отличает настоящее кросс-эмбодиментное обучение от простого мультитаск-обучения в рамках одного робота.

Результаты показывают значимое улучшение по трём метрикам. Сходимость: модели с action priors достигают того же качества, что и стандартные VLA, на 40% меньшем количестве gradient steps — это критично для реального обучения, где каждый шаг стоит времени и вычислений на дорогом GPU-кластере. Успешность: на задачах с sparse reward разрыв достигает 35% в пользу фреймворка с priors. Обобщение на реальном роботе: на Franka Panda с ограниченным датасетом модель с priors показывает существенно более высокий success rate, чем стандартная VLA. Это подтверждает, что моторные примитивы действительно кодируют переносимое знание о физике движения.

Почему это важно для индустрии

Кросс-эмбодиментное обучение — один из главных барьеров для通用ных роботизированных политик. Сегодня каждый новый робот требует отдельного датасета демонстраций, often тысячи примеров на конкретную задачу. Сбор данных для Franka Panda — это инженерные часы настройки, записи с motion capture, постобработка. Для гуманоида GR1 — отдельный цикл. Для нового quadruped — снова с нуля.

Фреймворк с action priors показывает, что физика движения может быть отделена от визуально-языковой привязки и переиспользована как модульный компонент. Это принципиально меняет экономику: один pretrained action prior может инициализировать policy для нового робота за часы вместо дней. Stage 1 можно обучить один раз на large-scale synthetic траекториях, сгенерированных физическим симулятором, а затем адаптировать к конкретному роботу через Stage 2 с минимальным количеством демонстраций.

Flow matching как метод генерации动作 оказался удачнее диффузионных моделей для робототехники именно благодаря однократному инференсу. Нет итеративного refinement, нет накопления ошибок на каждом шаге. Temporal context token как компрессор history позволяет(history-aware modeling) с постоянной сложностью независимо от горизонта планирования. Это даёт теоретическую основу для создания поистине универсальных роботизированных агентов.

Как это соотносится с LaST-R1 и Lost in Fog

В мае 2026 вышло два важных исследования по VLA: LaST-R1 (латентное CoT-рассуждение для роботов) и Lost in Fog (стресс-тест VLA под сенсорными помехами). Оба фокусируются на рассуждении внутри VLA, но не затрагивают проблему инициализации action-модуля. Action prior — это ортогональное улучшение: он делает лучше любую VLA-архитектуру на этапе инициализации, будь то RT-2, OpenVLA или фьюжн с CoT-рассуждением как в LaST-R1. По аналогии: если VLM-бэкбоны — это «интеллект» робота, то action prior — это «моторная память», которую можно переносить между телами.

Численные результаты и методология оценки

На бенчмарке LIBERO исследователи измеряли success rate на 4 задачах манипуляции: pick-and-place, drawer opening, button pressing, object relocation. Модель с priors достигала 89% success rate против 71% у стандартной VLA после 50,000 gradient steps обучения. На RoboCasa результаты ещё более показательны: 78% против 54% на задачах с длинным горизонтом планирования (более 15 действий). Провал без priors проявляется именно на длинных горизонтах — базовая VLA накапливает ошибки и «плывёт» от цели, в то время как action prior обеспечивает стабильную динамику.

Обучение Stage 1 проводилось на 2M траекторий, сгенерированных физическим симулятором MuJoCo. Размерность action space варьировалась от 7 DoF (Franka) до 19 DoF (GR1). Flow matching энкодер-декодер имел 12M параметров — это lightweight архитектура по сравнению с VLM-бэкбоном на 7B параметров. Именно это соотношение (12M action prior vs 7B VLM backbone) делает подход практичным: prior быстро дообучается на новом роботе, но кодирует достаточно структуры, чтобы радикально ускорить сходимость.

На реальном Franka Panda с 50 демонстрациями (data-scarce regime) фреймворк с priors достигал 82% success rate на задаче перемещения объекта, в то время как стандартный VLA-initialization давал только 47%. Разрыв в 35 процентных пунктов — это практически разница между системой, которую можно запустить в production, и прототипом для исследовательской лаборатории. Этот результат особенно важен для индустрии: 50 демонстраций — это реалистичный объём данных, который можно собрать за один рабочий день инженера.

Важно отметить методологию: все сравнения проводились при одинаковомbudget gradient steps. Это означает, что фреймворк с priors не просто «догоняет» базовую VLA за большее количество шагов — он достигает лучших результатов при том же вычислительном budget. Преимущество — именно в эффективности использования каждого демонстрационного примера, а не в том, что prior позволяет обучаться дольше.

Почему это сдвигает парадигму

До 2026 года主流ный подход к робототехнике предполагал, что каждый робот, каждая задача, каждая среда требуют отдельного датасета. Это делало scaling непрактичным: для 100 различных роботов нужно 100 отдельных обучений. Action prior как модульный компонент меняет это. Теперь достаточно одного предобучения на абстрактных траекториях, и конкретная реализация подключается через Stage 2. Это тот же принцип, который сделал VLM-бэкбоны переносимыми: модель, предобученная на тексте и картинках из интернета, адаптируется к конкретной задаче через fine-tuning — и теперь то же самое возможно для моторного примитива.

Параллель с VLM точная: когда в 2023 году появились GPT-4V и Claude, индустрия поняла, что не нужно каждый раз обучать vision-language модель с нуля — можно взять предобученный VLM и адаптировать. Теперь то же самое с motion: не нужно каждый раз discover физику движения с нуля — можно взять pretrained action prior и подключить к конкретному роботу. Это не отменяет необходимость данных для Stage 2 (визуально-языковое выравнивание), но радикально сокращает количество необходимых демонстраций для каждого нового embodiment.

FAQ

Чем это отличается от предобучения на визуальных данных?

Стандартное VLA-предобучение использует визуальные и языковые данные из интернета для инициализации бэкбона. Action prior — это отдельный, независимый примитив, который кодирует исключительно физику движения. Он не требует визуальных токенов и может обучаться на сырых motion capture данных или даже на synthetic траекториях, сгенерированных физическим симулятором. Это как разница между «изучить анатомию» (action prior) и «научиться видеть» (VLM pre-training).

Какие роботы получают наибольшую выгоду?

Больше всего выигрывают роботы с ограниченным количеством данных — реальные манипуляторы, для которых собрать тысячи демонстраций дорого и долго. Action prior даёт структурную инициализацию, которая компенсирует недостаток данных. На симуляционных бенчмарках эффект менее выражен, потому что там данных достаточно и стандартная VLA сходится хорошо. Практический выигрыш — именно на реальном железе, где каждый реальный демонстрационный эпизод стоит инженерного времени.

Можно ли использовать с любой VLM-архитектурой?

Да, фреймворк модульный: Stage 1 производит action prior в виде латентного пространства, Stage 2 просто подключает любой VLM-бэкбон через decoder reuse и latent alignment. Авторы экспериментировали с Qwen3-VL и ModernBERT, но архитектура не привязана к конкретному бэкбону. Теоретически любую модулярную VLA-архитектуру можно улучшить через предобучение action prior. Принцип работает независимо от того, какой VLM используется — prior добавляется как дополнительный компонент к уже существующему бэкбону.

Почему именно flow matching, а не диффузия?

Диффузионные модели требуют итеративного сэмплирования — для генерации одного действия необходимо 50–100 шагов forward process. В робототехнике реального времени это означает задержку на каждом шаге инференса. Flow matching даёт тот же результат за один ODE solve, что критично для closed-loop управления, где задержка между наблюдением и действием должна быть минимальной. Кроме того, однократный forward pass проще оптимизировать и профилировать на hardware. На практике это означает разницу между 50ms и 5ms задержки на одно действие — критично для манипуляций, где объект может выскользнуть.

Что насчёт иерархического планирования?

Текущий фреймворк фокусируется на low-level control — предсказании конкретных action chunk'ов. Иерархическое планирование (высокоуровневые задачи, декомпозиция на подзадачи) остаётся за VLM-бэкбоном, который получает языковые инструкции и визуальный контекст. Action prior не заменяет планировщик — он улучшает качество execution на уровне двигательных команд. Это разделение труда соответствует тому, как работают биологические системы: кора головного мозга планирует, спинной мозг выполняет.

Как насчёт transfer между совершенно разными морфологиями?

Эксперименты включали transfer между манипулятором (Franka, 7 DoF), гуманоидом (GR1, 19 DoF) и quadruped. Это уже значительная морфологическая вариация. Transfer между, например, манипулятором и роботом-змеёй (completely different body plan) формально не исследован, но авторы предполагают, что action prior, обученный на достаточном разнообразии embodiment, будет кодировать абстрактные принципы физики движения — законы сохранения, инерцию, контактную динамику — которые применимы к любому физическому телу.

Итог

Фреймворк с action priors решает фундаментальную проблему VLA: моторные примитивы не должны учиться с нуля в каждой новой конфигурации. Разделение на Stage 1 (автономное обучение физики движения через flow matching) и Stage 2 (подключение VLM и модальное выравнивание) позволяет переиспользовать моторное знание между роботами с разными embodiment. Temporal context token как компактный history compressor добавляет практическую эффективность для долгих манипуляций. Это сдвигает порог входа для通用ных роботизированных политик — меньше данных, быстрее обучение, сильнее обобщение на реальных задачах. Для индустрии это означает практический путь к быстрой адаптации физических агентов к новым платформам и задачам.