Hallucination in World Models: как генеративные модели «видят» то, чего нет
Беспилотный автомобиль «видит» дорогу ahead — плавно, уверенно, без единой ошибки в отрисовке. Но через три секунды он резко сворачивает в бордюр. Другой робот планирует траекторию манипулятора: траектория выглядит perfect, а предмет падает. Это не баг в детекции объектов и не ошибка в планировании. Это галлюцинация модели мира — генеративная модель, которая предсказывает будущее, производит визуально plausible, но физически неверное продолжение сцены.
Исследователи из UC San Diego (Nicklas Hansen, Xiaolong Wang) в June 2026 опубликовали работу, которая меняет правила игры: галлюцинации моделей мира предсказуемы и предотвратимы. Paper: Hallucination in World Models is Predictable and Preventable.
Что такое hallucination в моделях мира
Когда мы говорим о галлюцинациях в языковых моделях, мы имеем в виду фактически неверный текст. В моделях мира — то же самое, но последствия серьёзнее: сгенерированная траектория подаётся обратно в систему управления как команда для физического агента.
Модель мира предсказывает будущее в три этапа: энкодер превращает наблюдение в латентный код, динамис-модель (action-conditioned) предсказывает следующее латентное состояние, декодер рендерит восстановленное изображение. Каждый из трёх этапов — обученная функция на конечной выборке state-action space. Каждый может ошибиться независимо, когда его попросят экстраполировать за пределы увиденного.
Критически: все три этапа работают последовательно, поэтому ошибка на первом (искажённый encoding) усиливается и распространяется дальше. Модель не замечает проблемы, потому что на каждом шаге выход выглядит визуально гладко и правдоподобно.
Три типа галлюцинаций
Исследователи выделили три distinct failure modes:
Perceptual hallucination — декодер производит визуально неправдоподобный контент из-за corrupted encoding. Модель «не узнала» входное наблюдение достаточно хорошо.
Action-marginalized hallucination — динамис-модель предсказывает распределение future states, которое минимизирует loss на тренировочных данных, но не соответствует реальной физике. Модель видела narrow distribution действий и экстраполирует за её пределы неправильно.
Scene-diverging hallucination — декодер теряет связь с ground-truth dynamics. Визуально траектория остаётся smooth и привлекательной, но физика сцены «расползается»: объект проваливается сквозь поверхность, свет падает не с той стороны, тени игнорируют источник.
MMBench2: 427 часов для изучения галлюцинаций
Чтобы исследовать проблему систематически, команда создала MMBench2 — крупнейший датасет для визуального моделирования мира. Цифры впечатляют: 65,600 траекторий, 427 часов видео (224×224, 15 fps, 23 миллиона кадров), 210 различных задач непрерывного управления — от robot manipulation до locomotion, навигации и Atari-игр.
Каждая траектория содержит ground-truth actions, rewards и live environment simulators. Наличие live симулятора — ключевое отличие от пассивных датасетов: можно реально проверить, соответствует ли предсказанное будущее тому, что произошло бы в реальной физике.
Модель: 350M параметров, построена на архитектуре DreamerV4. Двухэтапное обучение: сначала video tokenizer via masked auto-encoding, затем dynamics model via flow-matching над пространственными латентными токенами с conditioning на actions.
Как предсказать галлюцинацию: три сигнала
Главный результат работы — три lightweight data-centric сигнала, которые с высокой точностью предсказывают, где модель будет галлюцинировать:
Tokenizer residual (нормализованный): отклонение между encoding и decoded representation. Когда encoder не может достаточно точно сжать входное наблюдение, residual растёт — это сигнал perceptual hallucination. AUROC 0.887 для action-ignored, 0.919 для scene-diverging режима.
Flow instability (нормализованный): нестабильность предсказанного flow между последовательными timesteps. Если динамис-модель «сомневается» в предсказании (предсказания сильно расходятся между seed variations), это коррелирует с галлюцинацией. AUROC 0.868 для action-ignored, 0.939 для scene-diverging.
Inter-seed variance: дисперсия между предсказаниями при разных random seeds. Высокая дисперсия = модель неуверена в своей траектории. AUROC 0.873.
Все три сигнала вычислительно cheap — не требуют дополнительного forward pass, только анализ internal states существующей модели.
Coverage-aware mid-training: как остановить галлюцинацию
Знать, что модель галлюцинирует — полезно. Но как предотвратить? Команда предложила coverage-aware reweighted sampling на этапе mid-training.
Идея: галлюцинации концентрируются в low-coverage regions state-action space — областях, где тренировочных данных мало или они нерепрезентативны. Если на этапе mid-training принудительно увеличить долю этих областей в батчах (upweighting редкие state-action pairs), модель получает больше наблюдений из «проблемных зон» до того, как закрепит неправильное поведение.
Результат: coverage-aware training значительно снижает частоту галлюцинаций на тестовых траекториях, особенно в сценах с редкими action combinations.
Почему это важно для индустрии
Большинство production-систем с моделями мира (роботы, автономные агенты, симуляторы) полагаются на сгенерированные траектории для планирования. Если модель «уверена» в траектории, которая физически невозможна, — последствия могут быть катастрофическими.
Традиционный подход: ensemble models, additional safety checks, ограничение горизонта предсказания. Недостаток: все они добавляют overhead и не решают проблему в корне.
Работа Hansen & Wang предлагает фундаментально иной путь: data-centric diagnosis вместо architecture-level band-aids. Не нужно менять архитектуру — нужно better coverage в тех областях, где модель currently insufficiently trained. Три сигнала (tokenizer residual, flow instability, inter-seed variance) дают практикам инструмент для быстрой диагностики без дополнительных вычислительных затрат.
Архитектура: DreamerV4 и почему именно она
Команда выбрала DreamerV4 как baseline — это не случайность. DreamerV4 использует block-causal Transformer как dynamics backbone: пространственная self-attention работает внутри каждого кадра, временная causal attention — вдоль timeline. Actions кодируются как отдельные токены и подаются conditioning сигналом на каждом шаге.
Video tokenizer обучается через masked auto-encoding: случайные patches входного видео маскируются и восстанавливаются. Это даёт learning signal, который не требует extrinsic rewards — только raw pixel observations. После того как tokenizer заморожен, dynamics model учится предсказывать future latent representations через flow-matching — не через autoregressive prediction, что избегает error accumulation на длинных горизонтах.
Choice of flow-matching (вместо MSE reconstruction или GAN-based approaches) важен для hallucination story: flow-matching позволяет модели выражать uncertainty в предсказании, что создаёт естественную связь между uncertainty и hallucination propensity. Flow instability как сигнал работает именно потому, что базовая архитектура предоставляет этот uncertainty signal.
Почему другие подходы не сработали
Ensemble-based hallucination detection (несколько моделей, голосующих за траекторию) логична, но дорога: 3-5x вычислительные затраты на каждый rollout. Кроме того, ensemble members часто соглашаются в hallucinatory regime — они учились на тех же данных, just different initialization.
Конкурентный подход: uncertainty estimation через Bayesian dropout или deep ensembles. Недостаток: требует modifications к architecture, дополнительные forward passes, и не даёт interpretable сигнала о том, почему модель галлюцинирует.
Три сигнала от Hansen & Wang — tokenizer residual, flow instability, inter-seed variance — это byproduct normal inference. Не нужно менять архитектуру, не нужно extra compute. Это делает их практичными для existing production systems.
FAQ
Можно ли использовать эти сигналы в production без переобучения? Да. Все три сигнала вычисляются из internal states существующей модели без дополнительных forward passes. Это делает их практичными для мониторинга в реальном времени: система может flag траектории с высокой вероятностью галлюцинации и передать управление backup policy.
Почему MMBench2 важен для всего мира ML? Потому что это первый датасет такого масштаба с live simulators для всех задач. До MMBench2 исследователи оценивали модели мира на passive видео — можно было увидеть, что модель «визуально ошиблась», но нельзя было количественно измерить отклонение от физической реальности. Live simulators + ground-truth actions + reward labels = полная система для измерения hallucination в контролируемых условиях.
Это касается только визуальных моделей мира? Архитектура и методика специфичны для visual world models, но принцип — hallucination concentrates in low-coverage regions — общий для любых generative models. Галлюцинации в LLM тоже чаще происходят в областях с недостаточным training distribution coverage.
Как три режима галлюцинации соотносятся с физической интуицией? Perceptual hallucination — это «я плохо это видел». Action-marginalized — «я никогда не видел такое действие». Scene-diverging — «я потерял связь с реальностью». Каждый режим требует своего решения: better perception, better coverage в action space, better consistency enforcement между encoded observations и decoded trajectories.
Итог
Hansen & Wang сделали три вещи, которые двигают поле вперёд: дали инструмент для измерения hallucination (MMBench2), дали способ предсказывать её до того, как она произойдёт (три сигнала с AUROC до 0.94), и дали способ предотвращать (coverage-aware training). Всё вместе — практичная система диагностики и mitigation для production world models, которую можно внедрять уже сейчас.
Если вы строите систему с generative world model — добавьте мониторинг tokenizer residual и flow instability в свой pipeline. Это дешевле, чем дополнительный safety ensemble, и точнее, чем generic confidence scores.
Практическое применение: от research к production
Для robotics-команд переход от MMBench2 к реальному роботу нетривиален. Ключевое ограничение: MMBench2 — это симулированные задачи, где ground-truth dynamics известен. В реальном мире у вас нет живого симулятора, который скажет «траектория невозможна». Но есть workaround: build your own hallucination oracle using historical data.
Идея: собрать датасет из known failures — траекторий, где система планирования дала physically impossible план, который был отловлен позже. Пометить эти траектории как positive examples для hallucination. Затем обучить lightweight classifier на три сигнала (tokenizer residual, flow instability, inter-seed variance), который предсказывает вероятность hallucination. Это превращает MMBench2 insights в deployable safety layer.
Для autonomous driving — аналогичная стратегия: собрать edge cases где система «сдавалась» (disengagement) из-за hallucination, использовать as training signal для coverage-aware sampling. Недостаток: real-world failure data sparse и дорого собирать. Поэтому MMBench2 так важен — он даёт масштаб для research, который потом transfer к sparse real-world data.
Числа, которые запомнить
MMBench2: 65,600 траекторий, 427 часов видео, 210 задач, 23M кадров — крупнейший датасет для visual world modeling с live simulators.
Три предсказательных сигнала: tokenizer residual AUROC до 0.919, flow instability AUROC до 0.939, inter-seed variance AUROC 0.873. Все три — без дополнительных forward passes.
Coverage-aware mid-training: снижает hallucination rate в low-coverage regions state-action space. Практический эффект: fewer physically impossible trajectories на выходе планировщика.
Модель: 350M параметров на DreamerV4 architecture, обучена на 20M кадров из 200 задач, протестирована на 3M кадров из оставшихся 10 задач.
Итог
Hansen & Wang сделали три вещи, которые двигают поле вперёд: дали инструмент для измерения hallucination (MMBench2), дали способ предсказывать её до того, как она произойдёт (три сигнала с AUROC до 0.94), и дали способ предотвращать (coverage-aware training). Всё вместе — практичная система диагностики и mitigation для production world models, которую можно внедрять уже сейчас.