Почему беспилотники врут в тумане: хрупкость рассуждений VLA-моделей
Беспилотный автомобиль едет по утреннему шоссе. Камеры видят туман, но нейросеть уверенно заявляет: «Полоса впереди свободна, держать скорость». Траектория при этом уводит машину в соседнюю полосу. Это не баг perception-модуля — это рассудочная иллюзия. Модель объясняет своё решение, но объяснение перестало быть связано с реальностью, и никакой внешний монитор этого не заметит. В мае 2026 года группа исследователей опубликовала системный стресс-тест Vision-Language-Action (VLA) моделей, который количественно доказывает: прозрачность рассуждений оборачивается опасной слепотой при деградации сенсоров.
Что такое VLA и зачем им объяснения
Vision-Language-Action модели — это архитектуры, которые объединяют зрение, язык и управление в одном контуре. В отличие от классических конвейеров «камера → детекция → планировщик → управление», VLA получает на вход изображения и текстовую инструкцию, а на выходе генерирует траекторию движения и языковое объяснение, почему именно такая траектория выбрана. Alpamayo R1 — текущий state-of-the-art среди таких моделей — использует 10-миллиардную архитектуру на базе Qwen3-VL, предсказывает 64 waypoint'а с частотой 10 Гц и сопровождает каждое решение chain-of-causation (CoC) объяснением вида «Замедлиться, потому что впереди в той же полосе тормозит ведущий автомобиль».
Для инженеров, сертифицирующих беспилотники по стандартам ISO 21448 (SOTIF) и ISO PAS 8800, такая интерпретируемость — не роскошь, а необходимость. Модель, которая артикулирует свои рассуждения, может быть допрошена, аудирована и доверена так, как black-box планировщик никогда не будет. Но вся эта прозрачность рушится, если объяснение перестаёт отражать реальное состояние сенсоров.
Как устроен стресс-тест Lost in Fog
Исследователи провели 18 000 инференс-триалов на 1 996 реальных сценариях вождения из датасета PhysicalAI-Autonomous-Vehicles. Каждый сценарий прошёл через восемь условий сенсорной деградации: гауссов шум четырёх интенсивностей (σ = 10, 30, 50, 70), два экстремальных освещения и два уровня тумана. Цель — измерить не просто точность траектории, а каузальную цепочку от визуального искажения через изменение рассуждения к отклонению траектории.
Модель сравнивалась с физическим baseline'ом постоянной скорости, который просто продолжает движение по прямой без руления и ускорения. На чистых данных Alpamayo R1 показывает ADE (average displacement error) 2.00 м против 6.32 м у baseline — улучшение на 68.3% с p-value менее 10⁻²⁵⁷. Это создаёт высокую планку: модель действительно планирует, а не просто экстраполирует кинематику.
Главное открытие: смена объяснения предсказывает аварию
Ключевая метрика исследования — CoC change rate: как часто chain-of-causation объяснение меняется после сенсорной помехи. И здесь цифры ошеломляют. Когда CoC меняется, отклонение траектории взлетает в 5.3 раза — с 4.1 м до 21.8 м. Корреляция между сменой объяснения и ростом ошибки составляет r = 0.99 across attack types и r_pb = 0.53 per-sample при Cohen's d = 1.12. Другими словами, нестабильность рассуждения — это почти идеальный индикатор нестабильности планирования.
Но есть обратная сторона: если CoC не меняется, модель может всё равно ошибаться, и ошибка останется незамеченной. Исследователи обнаружили, что под сильным шумом модель продолжает утверждать «Полоса впереди свободна» с той же уверенностью, что и на чистых данных — даже когда камера передаёт сплошной шум. Это отсутствие калиброванного эпистемического сигнала: языковая ветка не знает, что perception деградировал.
Что показали восемь типов помех
Таблица результатов ранжирует угрозы по возрастанию ΔADE. Лёгкий шум (σ = 10) практически незаметен: +0.01 м, p = 0.637. Тяжёлый шум (σ = 70) — катастрофа: +0.30 м ADE, 52.7% смены CoC, и 70.6% сценариев превышают 5-метровое L2-отклонение. На скоростях шоссе 5 метров — это смена полосы, а значит, потенциальное столкновение.
Интересно, что туман и низкая освещённость ведут себя по-разному. Туман вызывает 39% смены CoC при скромном росте средней ошибки, а низкое освещение (0.4× яркости) даёт +0.05 м ADE при всего 3.2% смены объяснений. Это означает, что разные типы деградации по-разному влияют на связь между языком и траекторией — универсального «антидота» не существует.
Деградация под гауссовым шумом оказалась линейной: R² = 0.957 по всему диапазону σ ∈ {10, 30, 50, 70}. Это даёт калиброванную эвристику для оценки риска деплоя: зная спектральную плотность шума сенсора, можно предсказать, насколько упадёт точность планирования.
Почему стандартные защиты не работают
Исследователи протестировали три стандартных preprocessing defense: JPEG-сжатие (Q75), бilateral filtering и histogram equalization. Результат — нет статистически значимого улучшения ни по ADE, ни по CoC stability. JPEG-сжатие даже немного ухудшает показатели (ADE 2.30 → 2.32 м), потому что артефакты сжатия добавляют высокочастотный шум, который VLA воспринимает как реальные текстуры.
Абляционное исследование показало, что генерация CoC сама по себе улучшает точность траектории на 11.8% в среднем по всем условиям (p < 0.0001). Это важный аргумент в пользу интерпретируемости: объяснения не просто декорация, они действительно помогают модели планировать. Но этот бонус исчезает, когда сенсоры деградируют — и тогда модель остаётся беззащитной.
Когда рассуждения отвязываются от реальности
Под сильным шумом языковая и траекторная ветки декоплируются. Текстовая ветка начинает полагаться на языковые приоры — «обычно здесь свободная полоса» — вместо текущего восприятия. Траекторная ветка продолжает генерировать waypoint'ы, но они уже не согласованы с объяснением. Исследователи называют это «языково-траекторным декоплингом» и подчёркивают: он определяет практическую границу CoC-мониторинга.
В режиме mild-to-moderate perturbation объяснения остаются надёжным прокси для безопасности. Но при extreme degradation текстовые приоры доминируют, и CoC consistency перестаёт предсказывать trajectory fidelity. Это корреляция, не причинность: языковая и траекторная ветки делят upstream-представления, но одна не управляет другой. Для сертификационных фреймворков вроде ISO PAS 8800 это критический trustworthiness gap.
Что это значит для индустрии беспилотников
Первый вывод практический: CoC consistency можно использовать как runtime monitor. Если объяснение резко меняется между кадрами при стабильных условиях — это сигнал тревоги. Но монитор должен знать границу: при σ > 50 он становится ненадёжным. Второй вывод — о приоритетах data augmentation. Для повышения робастности критичны три режима: тяжёлый гауссов шум (σ ≥ 50), условия низкой освещённости и специфические сценарии Follow_Vehicle и Stop_Signal, которые показали наибольшую уязвимость.
Третий вывод касается архитектуры. Нужны uncertainty-aware language supervision — механизмы, при которых модель под деградированными входами начинает хеджировать: «Возможно, полоса свободна, но видимость ограничена». Текущие VLA так не умеют. Их уверенность в языковом канале не калибрована относительно качества perception, что создаёт иллюзию контроля там, где его нет.
Ограничения и следующие шаги
Исследование использует синтетические помехи, наложенные покадрово; реальная деградация сенсоров коррелирована во времени и пространстве. Также тестировалась только одна модель (Alpamayo R1), хотя архитектурные выводы, вероятно, обобщаются на другие VLA с CoC-генерацией. Статистическая мощь высока (n = 1 996), но сценарии ограничены валидационным сплитом одного датасета.
Будущая работа, которую авторы обозначают, включает: тестирование на реальных corrupted сенсорах (не синтетических наложениях), оценку других VLA-архитектур, разработку defense-механизмов специально для VLA (не generic preprocessing), и интеграцию CoC-мониторинга в runtime safety stack беспилотников.
Часто задаваемые вопросы
Можно ли использовать VLA в беспилотниках уже сейчас?
Только в ограниченных operational design domain (ODD) с хорошей погодой и качественными сенсорами. При тумане, снегопаде или засветке камер VLA теряют связь между объяснениями и траекториями, что делает их непригодными для сертификации по стандартам SOTIF без дополнительных runtime monitor'ов.
Почему стандартные фильтры (JPEG, bilateral) не помогают?
Потому что VLA воспринимают артефакты preprocessing как реальные визуальные признаки. JPEG добавляет блочные артефакты, bilateral filter размывает критичные текстуры, а equalization меняет распределение интенсивностей. Эти методы разрабатывались для human vision, не для multimodal transformers.
Что такое CoC и чем он отличается от Chain-of-Thought?
Chain-of-Causation (CoC) — это специфический для автономного вождения вид объяснений, где модель указывает причинно-следственную связь: «Действие X, потому что условие Y». Chain-of-Thought (CoT) — более общий термин для пошагового рассуждения. CoC можно считать доменно-специфической разновидностью CoT, заточенной на каузальность в физическом мире.
Итог
Исследование Lost in Fog ставит под сомнение главное преимущество VLA-моделей — их интерпретируемость. Оказывается, прозрачные рассуждения работают только в номинальных условиях. При сенсорной деградации модель продолжает выдавать уверенные объяснения, которые перестают быть связаны с реальностью, и это невозможно обнаружить извне. Цифры неумолимы: 5.3× рост ошибки при смене CoC, 70.6% опасных отклонений при сильном шуме, R² = 0.957 линейной деградации. Путь к безопасным беспилотникам лежит не через более красивые объяснения, а через калиброванную неопределённость — способность модели сказать «я не уверен» тогда, когда сенсоры дают сбой.