02.05.2026 Исследования

LaST-R1: как роботы научились думать перед действием

Представьте робота, который перед тем как взять чашку, мгновенно прокручивает в «голове» сценарий: где находится ручка, какой вес, какой угол наклона, не разольётся ли жидкость. Это не фантастика — это LaST-R1, новый фреймворк для Vision-Language-Action (VLA) моделей, представленный в мае 2026 года. Его ключевое отличие: робот не просто повторяет за человеком, а рассуждает о физике мира в скрытом латентном пространстве, прежде чем совершить действие.

Что такое LaST-R1

LaST-R1 (Latent Reasoning for Action via Reinforcement) — это унифицированная архитектура, которая объединяет два процесса в одной модели: латентное Chain-of-Thought рассуждение над физической динамикой сцены и генерацию действий робота. В основе лежит предобученная Qwen3-VL-4B с визуальным энкодером SigLIP2-Large. Модель получает на вход изображение и текстовую инструкцию, а на выходе выдаёт не просто координаты для манипулятора, а последовательность скрытых «мыслей» — латентных токенов, которые кодируют понимание физики сцены, за которыми следует непосредственно действие.

Почему существующие VLA застряли в имитации

Современные VLA-модели делятся на два лагеря. Первые используют явное языковое рассуждение: модель буквально «думает вслух» на естественном языке, прежде чем двигаться. Это даёт интерпретируемость, но страдает от задержек и дискретизации — язык слишком груб для точной моторики. Вторые применяют непрерывное латентное рассуждение, что выразительнее, но оба подхода привязаны к статическому имитационному обучению. Они требуют огромных датасетов демонстраций эксперта и не умеют взаимодействовать со средой в замкнутом цикле. Ошибки накапливаются, а обобщение остаётся слабым.

Reinforcement Learning (RL) уже пробовали внедрять в VLA для обучения методом проб и ошибок, но существующие методы оптимизируют лишь «сырое» пространство действий, игнорируя сам процесс физического рассуждения. LaST-R1 закрывает этот пробел.

LAPO: совместная оптимизация мышления и действия

Главный алгоритмический вклад — Latent-to-Action Policy Optimization (LAPO). Это новый RL-алгоритм, который оптимизирует одновременно и латентное рассуждение, и генерацию действий. Вместо того чтобы обучать их по отдельности, LAPO связывает их в единый процесс: модель сначала генерирует латентные токены, а затем на их основе предсказывает действия. Преимущество в том, что градиенты от наград среды текут обратно не только в «руки» робота, но и в его «мысли» — улучшая представление о физическом мире.

Технически LAPO использует стандартный PPO-клиппинг, но с ключевым дополнением: совместная функция потерь включает три компонента — оптимизацию действий, оптимизацию латентных представлений и value-функцию для оценки состояний. Это позволяет модели учиться не только что делать, но и как думать перед действием.

Адаптивное reasoning: думать столько, сколько нужно

Не все задачи требуют одинаковой «глубины мышления». Простое движение вперёд не нуждается в долгих размышлениях, а сборка сложного механизма — нуждается. LaST-R1 внедряет адаптивный механизм латентного CoT: специальный токен <latent_end> сигнализирует, когда рассуждение достаточно. Во время обучения длина reasoning сэмплируется случайно для исследования, а во время инференса модель сама решает, когда остановиться, основываясь на уверенности предсказания.

Это даёт два выигрыша. Во-первых, на простых задачах модель не тратит лишние вычисления. Во-вторых, на сложных манипуляциях она может «думать дольше», увеличивая горизонт рассуждения до восьми латентных токенов. Анализ показывает: после RL-оптимизации распределение длин смещается — модель осознанно выбирает более короткие рассуждения для предсказуемых движений и удлиняет их для сложных задач.

Результаты: от 51% до 99,8% за один шот

LaST-R1 тестировали на четырёх наборах задач LIBERO — стандартном бенчмарке для роботизированной манипуляции. Модель проходила лишь однократный SFT warm-up на одной демонстрации на задачу, после чего доводилась онлайн-RL. Результат: средняя точность 99,8% по всем четырём наборам, включая длинногоризонтные задачи LIBERO-Long. Для сравнения, сильные SFT-бейслайны вроде OpenVLA-OFT, обученные на полных датасетах, показывают 97,1%.

В реальном мире на роботе Franka Research 3 картина ещё впечатляющее. После одного шота SFT точность составляла 52,5%, а после LAPO post-training выросла до 93,75% — прирост до 44% на сложных задачах вроде открывания застёжки-молнии или протирания вазы. Причём модель обобщалась: при изменении объектов, фона и освещения падение точности составило всего 8% в среднем, тогда как необученная версия проваливалась кардинально.

Часто задаваемые вопросы

В чём отличие LaST-R1 от обычных VLA-моделей?

Основное отличие — совместная оптимизация reasoning и действий через RL. Традиционные VLA либо просто копируют демонстрации (SFT), либо оптимизируют только действия без учёта внутреннего рассуждения. LaST-R1 обучает и то, и другое, связывая их в единый процесс.

Что такое латентное Chain-of-Thought в робототехнике?

Это скрытое рассуждение в непрерывном векторном пространстве, в отличие от явного текстового CoT. Модель генерирует последовательность латентных токенов, которые кодируют понимание физики сцены — массы объектов, их положение, возможные столкновения — и на основе этого планирует действия.

Может ли LaST-R1 работать на обычном железе?

Для обучения использовался кластер из 8 GPU H20, а для реального мира — две RTX 4090. Это не «запусти на ноутбуке», но и не суперкомпьютер. Архитектура основана на открытой Qwen3-VL-4B, так что воспроизводима в исследовательских лабораториях.

Итог

LaST-R1 показывает, что будущее робототехники — не в бесконечном сборе демонстраций, а в обучении роботов думать. Совместная оптимизация латентного рассуждения и действий через RL открывает путь к моделям, которые не просто повторяют, а понимают физику мира. 99,8% на LIBERO и 44% прирост в реальном мире — цифры, которые заставляют всерьёз задуматься: возможно, следующий прорыв в embodied AI будет не в масштабе данных, а в архитектуре мышления.