HERMES++: единая модель мира для автономного вождения
Беспилотный автомобиль, который не просто «видит» дорогу, а понимает её — рассказывает, что происходит вокруг, и одновременно предсказывает, как сцена изменится через три секунды. Это не два отдельных модуля, а одна нейросеть. В мае 2026 года команда исследователей представила HERMES++, unified driving world model, которая впервые объединила 3D-сцену понимание и предсказание геометрической эволюции в едином фреймворке на базе LLM.
Звучит как ещё одна академическая работа? Возможно. Но цифры говорят иначе: 41.6% улучшение Chamfer Distance на NuScenes, превосходство над специалистами в обеих задачах и при этом отсутствие необходимости в вспомогательной разметке. Это не инкрементальное улучшение — это попытка переосмыслить, каким должен быть мозг беспилотника.
Что такое HERMES++
HERMES++ — это единая модель мира для автономного вождения, которая одновременно решает две задачи: понимание 3D-сцены (отвечает на вопросы, описывает объекты, рассуждает о пространственных отношениях) и генерацию будущей геометрии (предсказывает эволюцию point cloud через заданный горизонт времени). В отличие от существующих подходов, где эти задачи решаются отдельными специализированными моделями, HERMES++ строит общее представление, в котором семантическое понимание напрямую направляет физическое предсказание.
Архитектура опирается на предобученный LLM, который обрабатывает Bird's-Eye View (BEV) представление, полученное из мультикамерных входов. BEV-сжатие решает ключевую проблему: как вместить информацию с шести камер в контекстное окно языковой модели, сохранив геометрическую структуру. Затем LLM генерирует текстовые ответы и обогащает специальные world queries — обучаемые запросы, которые переносят семантический контекст в ветвь генерации.
Термин «world model» в контексте автономного вождения означает способность системы не просто реагировать на текущие данные сенсоров, а внутренне моделировать динамику окружающей среды. Это позволяет прогнозировать риски, планировать траектории и оценивать последствия действий до их совершения. HERMES++ приближает эту идею к реальности, объединяя семантическое и геометрическое моделирование в одном контуре.
Почему существующие world models застряли в половине задачи
Современные driving world models делятся на два изолированных лагеря. Первые занимаются генерацией: предсказывают визуальную текстуру или 3D-геометрию будущей сцены, но не могут объяснить, почему сцена меняется именно так. Они воспроизводят правдоподобные кадры, но при этом слепы к семантике — не отвечают на вопросы, не описывают причинно-следственные связи. Например, такая модель может сгенерировать правдоподобное движение машины, но не скажет, что оно вызвано тем, что водитель повернул на перекрёстке.
Второй лагерь — Vision-Language Models, адаптированные для вождения. Они блестяще отвечают на вопросы о трафике, описывают сцены, рассуждают о пространственных отношениях. Но они привязаны к текущему моменту: не предсказывают, как сдвинется пешеход через секунду или изменится ли положение соседней машины. Это критический пробел для безопасности — избежание столкновения требует понимания и настоящего, и будущего. Пешеход, который сейчас стоит на тротуаре, через секунду может ступить на дорогу — и модель, понимающая только текущий кадр, этого не увидит.
HERMES++ закрывает этот разрыв, создавая архитектуру, где семантическое reasoning LLM напрямую управляет геометрической генерацией. Вместо двух независимых конвейеров получается единый цикл: понял смысл — предсказал форму. Это не просто удобство инженерное, а фундаментальное свойство: когда модель знает, почему что-то происходит, она лучше предсказывает, что произойдёт.
Как работает архитектура
Пайплайн HERMES++ состоит из четырёх ключевых компонентов, каждый из которых решает конкретную проблему объединения языка и геометрии. Первый — BEV Visual Tokenizer, который превращает мультикамерные изображения в плоское BEV-представление, сохраняющее геометрические пространственные отношения. Это решает проблему дискретности: вместо шести отдельных картинок модель работает с единым тензором, где каждый пиксель соответствует реальным метрам на дороге. Технически tokenizer работает в два этапа: сначала кодирует мультикамерные изображения через свёрточный энкодер, а затем проецирует их в BEV-пространство через обучаемую трансформацию, сохраняющую метрическую шкалу. Результат — компактные визуальные токены, совместимые с LLM.
Второй компонент — LLM-enhanced World Queries. Это набор обучаемых векторов, которые LLM обогащает семантическим контекстом во время генерации текстового ответа. Они служат мостом между ветвью понимания и ветвью генерации: знания о сцене, извлечённые языковой моделью, передаются в механизм предсказания будущего. Именно здесь происходит ключевое взаимодействие — LLM не просто отвечает на вопросы, а формирует «осмысленный контекст», который затем управляет геометрической генерацией. World queries обучаются end-to-end вместе со всей моделью, адаптируясь под конкретные сценарии вождения.
Третий — Current-to-Future Link. Этот модуль распространяет закодированные BEV-признаки на будущие временные шаги, используя обогащённые world queries, текстовые эмбеддинги и информацию об эго-движении автомобиля. Фактически, он отвечает на вопрос: «Если сейчас здесь так, а мы едем туда, что будет через три секунды?» Модуль учитывает не только текущую геометрию, но и планируемую траекторию движения, что критично для корректного предсказания собственной перспективы. Без этого link'а модель предсказывала бы будущее из «божественной» точки зрения, а не из кабины автомобиля.
Четвёртый — Joint Geometric Optimization. Чтобы предсказанные point clouds сохраняли физическую корректность, авторы ввели двойную стратегию: явные геометрические ограничения на реконструированных облаках точек и неявную регуляризацию на латентном многообразии с помощью замороженного geometry extractor. Это предотвращает «размытие» структуры — ситуацию, когда генеративная модель выдаёт правдоподобную, но геометрически невозможную сцену. Замороженный extractor служит якорем: он заставляет внутренние представления модели соответствовать реальным геометрическим приорам, не позволяя им «уплыть» в фантастические конфигурации. Без этого компонента модель могла бы генерировать красивые, но физически абсурдные облака точек.
Экспериментальная установка
HERMES++ тестировали на NuScenes и OmniDrive-nuScenes — двух стандартных бенчмарках для автономного вождения. NuScenes содержит 1000 сцен с 6 камерами, lidar и radar, собранных в Бостоне и Сингапуре. OmniDrive-nuScenes расширяет этот датасет вопросами и описаниями сцен для оценки языкового понимания. В качестве ground truth для геометрической генерации использовались синхронизированные point clouds.
Сравнивали с тремя категориями baseline: специализированными генеративными моделями (4D-Occ, ViDAR, DriveX), специализированными моделями понимания (OmniDrive, ORION) и конференс-версией самого HERMES. Важно, что все RL-бейслайны и SFT-модели обучались по своим официальным протоколам, а HERMES++ использовал единый пайплайн для обеих задач без дополнительной разметки. Метрики для генерации включали Chamfer Distance и Earth Mover's Distance, а для понимания — стандартные языковые метрики CIDEr, METEOR и ROUGE.
Результаты: специалисты проигрывают универсалу
В генерации будущей геометрии HERMES++ сократил Chamfer Distance на 41.6% по сравнению с ViDAR при предсказании на горизонте 3 секунды, используя только текущий кадр. Даже против недавнего DriveX метод сохраняет преимущество в 0.09 CD. Это означает, что point clouds, предсказанные HERMES++, геометрически ближе к реальности, чем у моделей, заточенных исключительно под генерацию. Причём это достижение приходит не за счёт увеличения вычислительной сложности, а за счёт архитектурной синергии — language-based reasoning направляет геометрическую генерацию туда, где она нужна.
В понимании сцены картина аналогична. Безо всякой auxiliary supervision (без детекции объектов, без lane detection) HERMES++ превзошёл OmniDrive-L на 2.3% по CIDEr и OmniDrive-2D на 11.6%. Авторы связывают это с геометрическими свойствами BEV-представления и механизмами взаимодействия задач: когда генерация и понимание обучаются совместно, каждая ветвь получает implicit сигналы от другой. Модель, которая учится предсказывать будущую геометрию, автоматически лучше понимает текущую сцену — и наоборот.
Отдельно стоит отметить data efficiency. Специалисты вроде OmniDrive часто полагаются на вспомогательные задачи — 3D object detection, lane detection — чтобы направить обучение представлений. HERMES++ обходится без этого: достаточно BEV-представления и стандартного instruction tuning. Это упрощает пайплайн и снижает требования к разметке.
Часто задаваемые вопросы
В чём главное отличие HERMES++ от обычных driving world models?
Основное отличие — унификация понимания и генерации в одном фреймворке. Традиционные модели либо предсказывают будущее, не понимая семантики, либо понимают семантику, не предсказывая будущее. HERMES++ делает и то, и другое, причём семантическое reasoning напрямую улучшает геометрическую генерацию через world queries.
Что такое BEV-представление и почему оно важно?
BEV (Bird's-Eye View) — это вид «сверху», где информация с нескольких камер проецируется в единую плоскость, сохраняющую метрические пространственные отношения. В отличие от отдельных изображений, BEV позволяет модели рассуждать о расстояниях и позициях в метрах, а не в пикселях, что критично для автономного вождения.
Какие ограничения есть у HERMES++?
Авторы отмечают два направления для развития. Во-первых, использование семантических приоров из предобученных мультимодальных моделей для BEV-входа требует дополнительного исследования. Во-вторых, расширение генерации на разнообразные модальности (не только point clouds, но и текстуры, occupancy, динамику агентов) — перспективный путь для комплексной симуляции сцен.
Как HERMES++ может повлиять на беспилотные автомобили в ближайшие годы?
Если подход масштабируется, он может изменить архитектуру беспилотных систем от набора специализированных модулей к единой модели мира. Это упростит разработку, снизит требования к разметке и потенциально повысит безопасность за счёт лучшего понимания причинно-следственных связей. Однако переход от исследовательского прототипа к production-системе потребует решения вопросов вычислительной эффективности и сертификации.
Итог
HERMES++ демонстрирует, что будущее автономного вождения — не в наращивании отдельных специализированных модулей, а в единых моделях мира, которые одновременно понимают и предсказывают. Объединение LLM-based reasoning с геометрической генерацией через BEV и world queries даёт синергию, которой нет у изолированных специалистов. 41.6% улучшение Chamfer Distance и превосходство над OmniDrive без auxiliary supervision — показатели, которые меняют представление о том, каким должен быть driving world model. HERMES++ — это шаг от набора датчиков и алгоритмов к настоящему интеллекту на дороге.