OmniRobotHome: как 48 камер и два манипулятора решают проблему безопасности роботов рядом с людьми
Представьте кухню, где два робота одновременно раскладывают продукты — один передаёт банан в раковину, другой — консервы на полку. Между ними ходит человек. Классическая система безопасности выбирает одно из двух: либо останавливает робота при приближении человека (безопасно, но медленно), либо игнорирует его (быстро, но опасно). Исследователи из проекта OmniRobotHome нашли третий путь — и он снижает столкновения в 2,6 раза, одновременно улучшая скорость работы.
Что такое мультиадическая коллаборация и почему она так сложна
Большинство исследований в робототехнике изучают сценарии «один робот — один человек» в контролируемой среде: манипулятор на столе, человек сидит рядом. Но реальные дома — это не лаборатории. Люди двигаются непредсказуемо, перемещают объекты, перестраивают пространство. И часто задачи требуют нескольких роботов, действующих одновременно в общем рабочем пространстве.
Исследователи называют это мультиадической коллаборацией — режим, где несколько роботов и люди совместно выполняют переплетённые подзадачи с тесной пространственно-временной связью. Центральный барьер: надёжное отслеживание нескольких агентов в 3D. Близкое взаимодействие между людьми, роботами и объектами создаёт постоянные перекрытия и быстрые изменения состояния. Традиционные подходы с одной камерой или лидаром здесь не справляются.
Проблема усугубляется тем, что в жилых помещениях нет стандартной разметки, маркеров или заранее определённых позиций. Человек может встать в любом месте, взять любой объект, изменить конфигурацию сцены за секунды. Система, которая полагается на предварительную карту или фиксированные зоны, быстро становится неприменимой.
Система: 48 камер, два манипулятора, единое пространство
OmniRobotHome — это жилое пространство площадью 23,1 м², оборудованное 48 синхронизированными RGB-камерами (FLIR Blackfly S BFLY-PGE-31S4C), работающими на частоте 30 Гц с разрешением 2048×1536. Камеры распределены по 12 вычислительным узлам, подключённым через GigE Vision интерфейс. Десять узлов обрабатывают позу человека (40 камер), два узла обеспечивают стереопары для отслеживания 6D-позы объектов (8 камер).
Гибридная конфигурация объективов балансирует между охватом и детализацией: 24 широкоугольных объектива (f=3 мм) обеспечивают покрытие всей комнаты для оценки позы человека, 24 телевика (f=6 мм) дают детализированное изображение для 6D-позы объектов. Экспозиция фиксирована на 2,5 мс — достаточно короткая, чтобы минимизировать motion blur при движении человека, но с достаточным отношением сигнал/шум.
Аппаратная синхронизация реализована через внешний триггер (10 Vpp square wave, 50% duty cycle), генерируемый UNI-T UTG962 и распространяемый через иерархическую цепочку из 8-портовых GPIO-дистрибьюторов. Все камеры захватывают кадр одновременно — это критично для корректной триангуляции 3D-точек, поскольку при движении человека со скоростью 1 м/с задержка синхронизации в 33 мс даёт ошибку позиционирования в 3,3 см.
В системе два манипулятора Franka Research 3, оснащённых параллельными захватами. Данные от камер поступают в реальном времени: каждый узел запускает YOLO-детекцию и RTMPose для 2D-позы, центральный сервер триангулирует 3D-суставы через RANSAC-многовидовую реконструкцию и объединяет с 6D-позой объектов от стереопар. Итоговое состояние сцены формируется в единой мировой системе координат и передаётся роботам.
Непрерывная съёмка в едином кадре дополнительно накапливает траектории поведения людей. Эти данные система использует для двух задач: прогнозирование движений человека (для безопасности) и предсказание намерений (для помощи).
Как откалибровать 48 камер без потери точности
Инструментирование 48 камер в единой системе координат — нетривиальная задача. COLMAP, стандартный инструмент для калибровки, требует размещения шаблонов по всей сцене и теряет точность в зонах без шаблонов — а в жилой комнате таких зон много. Исследователи разработали кастомный пайплайн на основе ChArUco-досок и custom bundle adjuster. Результат: средняя ошибка репроекции 1,21 пикселя против 1,42 у COLMAP. Это означает, что 3D-позиция точки, проецируемой обратно на изображение, отклоняется в среднем на 1,21 пикселя — достаточно для управления манипулятором с сантиметровой точностью.
48 камер обеспечивают более 80% объёмного покрытия пространства. Это означает, что в каждый момент времени как минимум несколько камер видят каждого человека и объект без существенных перекрытий. При уменьшении числа камер до 16 покрытие падает до 50–60%, что недостаточно для надёжного отслеживания в динамической среде.
Эксперименты: кухня, два робота, человек
Исследователи использовали сценарий совместной кухни. Два робота одновременно сортируют продукты: свежие — к раковине, упакованные — на полку. Человек свободно перемещается по рабочему пространству. Четыре участника (A–D) проходят все эксперименты. Каждый эпизод — это pipelined bimanual pick-handover-place цикл продолжительностью примерно 15 секунд.
Безопасность: 2,6-кратное снижение столкновений
Четыре базовые политики сравнивались с предлагаемой системой Dynamic + Behavior Learning. Non-aware робот не учитывает человека вообще. Static-0,5 м и Static-2,0 м останавливают робота, если человек внутри радиуса. Dynamic использует real-time 3D-отслеживание без памяти поведения.
Результат: политики с фиксированным радиусом не могут одновременно обеспечить безопасность и производительность. При увеличении радиуса падает скорость; при уменьшении — растут столкновения. Dynamic + Behavior Learning достигает 2,6-кратного снижения столкновений по сравнению с лучшей статической политикой (Static-0,5 м), одновременно улучшая cycle time.
Почему память поведения помогает? Первые 10–20 секунд система собирает базовую траекторию — типичную скорость, зоны внимания, маршруты. После этого она предсказывает движение человека до того, как оно происходит. Если человек обычно обходит стол справа перед тем как взять чашку, робот учитывает это при планировании траектории.
Предсказание намерений: точность с половины демонстрации
Вторая задача — интеллектуальная помощь. Робот должен догадаться, куда человек хочет положить объект, и адаптироваться. Используются 12 объектов (6 фруктов → раковина, 6 упаковок → полка). Система получает частичную последовательность демонстраций поведения человека и должна определить целевой объект и место размещения.
Три метода сравнивались: Lookup (поиск по базе), LLM (Claude Sonnet 4.5), и LLM + Reasoning. Результат: система достигает полной точности размещения уже при 50% демонстрационной последовательности. Базовый copy-подход требует полной последовательности для той же точности.
Память поведения раскрывает разные динамики для двух задач. Для безопасности достаточно компактного окна ранних наблюдений, которое захватывает доминирующие паттерны движения. Для предсказания намерений нужны демонстрации, охватывающие обе категории объектов — только тогда система сходится к полной точности.
Качественные демонстрации: намерение из позы
Система также демонстрирует способность infer целевой объект из реального времени 3D-позы человека и контекста сцены. Робот наблюдает за позой человека — направление взгляда, положение рук, ориентацию тела — и адаптирует траекторию передачи онлайн, по мере того как человек протягивает руку. Это называется intention-aware transfer и показывает, как тесная связь между восприятием и действием позволяет системе работать с partially observed намерениями.
Почему это важно
Большинство существующих систем либо игнорируют присутствие человека в контуре управления, либо замедляют работу до неприемлемого уровня. OmniRobotHome демонстрирует, что dense multi-camera 3D-восприятие — это не лабораторный артефакт, а практическое решение, работающее в жилом пространстве уже сегодня.
Ключевой вывод: безопасность и производительность не обязательно противоречат друг другу. Если система достаточно точно понимает, что делает человек, она может продолжать работу безопасно, не останавливаясь. Память поведения добавляет ещё один уровень — система предсказывает, а не реагирует.
Для индустрии это означает, что следующее поколение коллаборативных роботов для домов, больниц и складов должно строиться вокруг масштабного 3D-восприятия, а не одиночных датчиков. Две камеры и лидар недостаточны для задач, где люди и роботы действуют в тесном пространстве.
Часто задаваемые вопросы
Почему именно 48 камер? Можно ли обойтись меньшим числом?
Покрытие комнаты требует dense Multi-View — каждый участник и объект должен быть виден как минимум двумя камерами для триангуляции в 3D. В жилом пространстве с мебелью и перекрытиями 48 камер обеспечивают более 80% объёмного покрытия. Симуляции с меньшим числом камер показывают резкое снижение точности: при 16 камерах покрытие падает до 50–60%, что недостаточно для надёжного отслеживания.
Как система работает с незнакомыми людьми?
Первые 10–20 секунд система собирает базовую траекторию поведения. За это время она фиксирует доминирующие паттерны движения — типичную скорость, зоны внимания, маршруты перемещения. Эти данные используются для предсказания. Для новых людей система работает с нуля, постепенно накапливая модель поведения. Четыре участника в экспериментах имели разный рост, телосложение и стиль движения — система адаптировалась к каждому.
Какие практические применения наиболее перспективны?
Сценарии включают помощь по дому для пожилых людей (робот ассистирует без риска столкновения), совместные складские задачи, хирургические ассистенты. Система также накапливает данные о поведении людей, которые можно использовать для проектирования будущих жилых пространств — комнаты, где роботы и люди сосуществуют комфортно. Накопленные траектории поведения — это тоже данные, которые могут улучшать планирование на уровне архитектуры.
Почему два манипулятора, а не один?
Один манипулятор ограничен в рабочем пространстве — он может достичь только части стола или кухни. Два манипулятора расширяют зону действия: один работает со столом, другой — с полками. Но главное — они позволяют cooperative handover, когда один робот передаёт объект другому. Это критично для задач, где объекты нужно перемещать на большие расстояния или через препятствия.
Как сравнивались разные политики безопасности?
Исследователи тестировали пять политик в симуляции с реальными траекториями людей. Non-aware игнорирует человека полностью. Static-0,5 м останавливает робота, если человек ближе 0,5 м. Static-2,0 м — более консервативная версия. Dynamic использует real-time 3D tracking без памяти. Dynamic + Behavior Learning — полная система с накопленной моделью поведения.
Метрики включали: количество столкновений, cycle time (время на один цикл pick-handover-place), fallback time (время, проведённое в safety stop), и task success rate. Каждая политика тестировалась со всеми четырьмя участниками, минимум 20 симуляций на конфигурацию. Для кривой обучения (без заморозки памяти) проводилось дополнительно 212 симуляций с 48 точками заморозки на 4 участников.
Как работает намерение-aware передача?
При intention-aware transfer система наблюдает за позой человека в реальном времени — направление взгляда через orientation головы и torso, положение рук относительно объектов на столе, ориентацию тела. Эти данные вместе с текущей конфигурацией сцены передаются в LLM (Claude Sonnet 4.5), который делает inference о целевом объекте и месте размещения. Робот затем адаптирует траекторию handover онлайн — по мере того как человек протягивает руку, траектория корректируется, чтобы meet him where he is. Это не заранее запланированный motion — система реагирует на живую позу.
Итог
OmniRobotHome решает фундаментальную проблему коллаборативной робототехники — конфликт между безопасностью и производительностью — через масштабное 3D-восприятие в реальном времени. Снижение столкновений в 2,6 раза при улучшении скорости — это не компромисс, а результат лучшего понимания окружения. Когда робот точно знает, где человек, ему не нужно останавливаться «на всякий случай».
Память поведения добавляет принципиально новый слой: система предсказывает действия человека, а не просто реагирует на них. Это сдвигает парадигму от reactive safety к anticipatory assistance — робот понимает намерение и адаптируется заранее.