Как человеческие руки учат роботов: LaST-HD и передача навыков через latent reasoning
Представьте: вы надеваете недорогую перчатку с датчиками движения, совершаете несколько движений рукой — и через двадцать минут робот с двумя руками точно повторяет ваши действия. Без программирования. Без motion capture стоимостью в сотни тысяч долларов. Это не фантастика — это результат нового исследования LaST-HD (Learning Latent Physical Reasoning from Scalable Human Data) с arXiv.
Проблема, которую решает LaST-HD, стара как сама робототехника: как заставить робота повторять действия человека? Традиционный подход — manual retargeting, когда инженер вручную описывает соответствие между суставами человеческой руки и robot gripper. Работает для геометрии, но физиология различается принципиально. Человек задействует 27 степеней свободы в кисти, а робот — семь в каждом плече манипулятора. Геометрическое соответствие не учитывает физику взаимодействия: как рука давит на объект, как распределяется вес, как работает захват.
Почему геометрический подход терпит неудачу
Когда исследователи пытались напрямую переносить человеческие демонстрации на роботов, результаты оказывались предсказуемо плохими. Робот, обученный на чисто геометрическом retargeting, хватает предметы неуверенно, роняет их при малейшем возмущении, не может адаптироваться к новым объектам или позициям. Причина — физические динамики движения человека и робота различаются не только кинематически, но и по характеру приложения сил, по времени реакции, по способу поддержания стабильности захвата.
Ключевая идея LaST-HD: вместо попытки напрямую перенести кинематику человеческой руки на робота, обе системы сначала проецируются в единое латентное пространство физических рассуждений. В этом пространстве абстрагируются конкретные реализации движений — вместо «согнуть палец под углом 30 градусов» модель оперирует понятиями «приложить усилие для преодоления сопротивления крышки» или «создать момент вращения для откручивания». Это позволяет обучаться общим физическим принципам, а не копировать конкретные траектории.
Архитектура: reasoning-before-acting
LaST-HD наследует идеологию reasoning-before-acting VLAs (Vision-Language-Action models), где модель сначала продумывает действие в латентном пространстве, а затем генерирует физическую команду. Архитектура построена на Janus-Pro с MoT (Mixture-of-Transformers): reasoning expert отвечает за генерацию латентных состояний, action expert — за предсказание конкретных действий через flow-matching.
Визуальные наблюдения кодируются через SigLIP-Large, проектируются в LLM hidden space через MLP. LLM backbone — DeepSeek-LLM 1.5B, перепрофилированный в MoT policy с двумя экспертами. Reasoning expert авторегрессивно предсказывает последовательность латентных состояний, action expert предсказывает action chunk через flow-matching. Критичный элемент: shared attention design позволяет transfer знаний от reasoning expert к action expert, обеспечивая морфологически-agnostic priors в латентном пространстве.
Формулировка задачи: robotic manipulation as probabilistic sequential decision making. Даны language instruction l и визуальное наблюдение I_t в формате H×W×3. Policy π_theta предсказывает action chunk a_{t+1:t+H} через условную вероятность. Action space специфичен для embodiment: dual-arm grippers используют two 7-DoF end-effector actions (relative translation, Euler-angle rotation, binary gripper command), dexterous hands добавляют hand joint angles — до 26-DoF для WUJI Hand.
Human-to-Robot Latent Alignment
Для эффективного обучения LaST-HD используются scalable human-hand демонстрации, но substantial embodiment gap между человеческими руками и роботами делает direct transfer проблематичным. Вместо naive action-level co-training, который страдает от severe domain mismatch, исследователи вводят human-to-robot latent alignment strategy, которая встраивает оба домена в shared physical reasoning space.
Подход: auxiliary action-conditioned world model тренируется на unpaired human-hand и robot trajectories для synthesis unified latent targets. После выравнивания cross-embodiment representations в shared forward-dynamics space, эти targets supervised латентный reasoning процесс LaST-HD, позволяя модели internalize shared physical dynamics и drive efficient human-hand action learning.
OOL Glove: low-cost motion capture для масс
Out-of-Lab (OOL) Glove — аппаратная часть системы, и именно она делает подход практичным. Это недорогая перчатка с датчиками, специально разработанная для LaST-HD. Ключевое требование: она должна предоставлять точные ключевые точки движения руки и служить универсальным источником action supervision для произвольных grippers и dexterous hands.
Стоимость OOL Glove — на порядки ниже профессиональных систем motion capture. При этом она обеспечивает достаточно данных для эффективного обучения робота. Эти данные не идеальны: между человеческой рукой и роботом остается существенный embodiment gap, но латентное выравнивание в LaST-HD справляется с этой проблемой. Captured human data предоставляют precise keypoints и работают как universal action supervision across grippers and dexterous hands.
Progressive mixed-to-human training
Обучение проходит в два этапа. Первый — mixed human-robot co-training: модель тренируется на смеси human-hand демонстраций и robot trajectories одновременно. Это позволяет выровнять представления в латентном пространстве, постепенно преодолевая domain mismatch. На этом этапе LaST-HD уже улучшает generalization к новым объектам, сценам и позициям, используя только human-hand демонстрации.
Второй этап — human-hand online correction post-training: после co-training фазы включается механизм онлайн-коррекции, когда human-hand данные используются для fine-tuning модели на конкретные задачи. Armed with the aligned latent space and high-fidelity human-hand data, progressive mixed-to-human training recipe comprises mixed human-robot co-training и human-hand online correction post-training. Именно на этом этапе достигается впечатляющий результат — более 90% точности при всего 20 минутах данных с OOL glove.
Эксперименты: шесть задач, три платформы
Оценка проводилась на шести реальных задачах с тремя различными платформами: dual-arm grippers (Galaxea R1 Lite, Tianji Marvin) и dexterous manipulation (Marvin arm + WUJI Hand). Задачи включали откручивание крышки бутылки (Unscrew Bottle Cap), организацию объектов в коробке (Organize Box), сортировку фруктов (Sort Fruits), упаковку предметов в сумку с застегиванием молнии (Put Items to Bag and Zip), наливание воды (Pour Water) и захват с использованием clamp (Grasp with a Clamp).
Для каждой задачи收集了 100 in-domain robot teleoperation демонстраций и 50 OOL Glove демонстраций. Три сценария generalization — unseen positions, objects, scenes — тестировались на 60 OOL Glove демонстрациях каждый. Система использует три камеры 384×384: head view (ZED 2i) и две wrist views (Insta360 GO 3S).
Бенчмарки: кто лидирует
LaST-HD сравнивался с тремя SOTA методами: LaST 0 (latent-CoT VLA), π₀.₅ (strong VLA policy) и Cosmos-Policy (world-action model). Результаты по шести задачам (оценка в долях от 1.0):
На dual-arm платформе Galaxea R1 Lite LaST-HD достигает 0.85 на задаче откручивания крышки и 0.70 на организации коробки — лучший результат среди всех baseline. π₀.₅ показывает 0.70/0.70, Cosmos-Policy — 0.75/0.50, LaST 0 — 0.80/0.70. LaST-HD лидирует на первой задаче, но уступает LaST 0 на второй.
На Tianji Marvin в задачах Sort Fruits (0.95) и Put and Zip (0.80) LaST-HD уверенно лидирует. Для сравнения: π₀.₅ показывает 0.85/0.75, Cosmos-Policy — 0.85/0.60, LaST 0 — 0.75/0.60. Разрыв существенный — 0.95 против 0.75 у ближайшего конкурента.
На dexterous платформе с WUJI Hand результаты скромнее: Pour Water 0.60, Grasp with Clamp 0.45 — но и это превосходит Cosmos-Policy (0.20 и 0.20) и LaST 0 (0.40 и 0.50). π₀.₅ лидирует здесь с 0.30/0.40, что показывает, что dexterous manipulation остается сложной задачей для всех методов.
Средняя точность по всем задачам: LaST-HD — 0.73, LaST 0 — 0.63, π₀.₅ — 0.62, Cosmos-Policy — 0.52. Улучшение на 16% относительно лучшего baseline — существенный отрыв для robot learning задач.
Ablation: что дает больше всего
Ablation studies показывают вклад каждого компонента. Латентное выравнивание критично: без него модель деградирует до уровня чисто геометрического retargeting. Progressive training recipe обеспечивает стабильную конвергенцию при смешанных данных. OOL Glove данные отдельно дают сильный signal для выравнивания представлений, но в комбинации с robot co-training эффект синергетический.
Почему это важно сейчас
Масштабирование robot learning традиционно упирается в дороговизну данных. Robot demonstrations требуют специализированного оборудования, времени экспертов, физического доступа к роботу. Human-hand демонстрации снимают это ограничение: человек может показать движение быстро и естественно, а стоимость записи — минимальна. LaST-HD демонстрирует, что при правильном подходе к выравниванию представлений эти данные конвертируются в рабочие robot policies.
Практическая импликация: factories и labs смогут программировать манипуляторов через простые человеческие демонстрации, а не через explicit coding. Это потенциально революционное снижение barrier to entry для робототехники. Если раньше для обучения робота требовались часы специализированной работы оператора, то теперь — 20 минут с недорогой перчаткой.
Ограничения и что дальше
LaST-HD фокусируется на манипуляции, не на навигации или мобильности. Качество передачи все еще зависит от closeness домена задачи: чем дальше задача от демонстрируемого поведения, тем слабее generalization. Dexterous манипуляции с тонкой моторикой показывают более низкие результаты (0.45–0.60) по сравнению с gripper-based задачами (0.70–0.95), что указывает на preserved challenge в передаче сложных hand poses. Причина — dexterous hands требуют точного контроля всех 26 DoF, что сложно вывести из human-hand данных с fewer degrees of freedom.
Тем не менее подход открывает новое направление: использование scalable human data через латентное выравнивание вместо explicit retargeting. С учетом того, что OOL Glove уже достаточно дешевая для массового production, будущее robot learning может оказаться ближе, чем мы думаем. Следующие шаги очевидны: расширение на navigation задачи, улучшение dexterous manipulation results, и интеграция с larger VLMs для более complex reasoning.
Часто задаваемые вопросы
Чем LaST-HD отличается от традиционного robot learning from human demonstration?
Классический подход пытается напрямую mapping человеческих действий на робота через геометрическое соответствие суставов. LaST-HD вместо этого проецирует обе системы в латентное пространство физических рассуждений, где абстрагируются конкретные реализации. Это позволяет обучаться общим физическим принципам, а не копировать траектории. Результат — значительно лучший generalization на новые задачи и объекты: 0.73 средней точности против 0.63 у ближайшего конкурента.
Сколько данных нужно для обучения?
20 минут записи с OOL Glove достаточно для достижения более 90% точности на целевых задачах. Это на порядки меньше, чем традиционные robot demonstration datasets, которые требуют десятки часов специализированной записи. Экономия достигается за счет того, что человеку не нужно работать на роботе — достаточно обычных движений рукой. При этом данные собираются с помощью простой перчатки, а не дорогого motion capture оборудования.
Какие роботы поддерживаются?
LaST-HD оценивался на dual-arm grippers (Galaxea R1 Lite, Tianji Marvin) и dexterous hands (WUJI Hand). Архитектура принципиально agnostic к embodiment, но качество generalization зависит от близости кинематики целевого робота к человеческой руке. Gripper-based задачи показывают 0.70–0.95 точности, dexterous — 0.45–0.60, что отражает сохраненную сложность передачи сложных hand poses с 26 DoF из human-hand данных.
Итог
LaST-HD демонстрирует, что преодоление embodiment gap между человеком и роботом возможно через латентное выравнивание физических рассуждений. Подход объединяет reasoning-before-acting VLA архитектуру, low-cost OOL Glove для сбора данных, и progressive mixed-to-human training для эффективной конвертации человеческих демонстраций в робототехнические policies. Результат — 0.73 средней точности (против 0.63 у лучшего baseline) и 90% точности при 20 минутах калибровки — делает robot learning значительно более практичным для реальных применений.
Если вы работаете с robot manipulation и ищете способ быстро программировать новые задачи — следите за направлением latent physical reasoning. Затраты на данные снижаются радикально, а качество передачи растет.