Почему Video-LLM не видят движение: directional motion blindness
Задайте современной видеомодели вопрос: «В какую сторону двигался красный круг — влево или вправо?» На синтетическом ролике с одним объектом и однородным фоном. Логично ожидать, что модель, способная описывать сложные сцены и отвечать на вопросы о видео, справится с этим мгновенно. Ан нет. Большинство Video-LLM дают ответы уровня подбрасывания монетки — около 25% точности на четырёх вариантах. Исследователи из Korea University называют это directional motion blindness: системная слепота к направлению движения, которая сохраняется даже у передовых моделей.
В статье «Which Way Did It Move?» (arXiv:2605.22823) команда KHU-VLL не просто констатирует проблему, а локализует её внутри архитектуры, выясняет механизм и предлагает решение — DeltaDirect. Результат: точность на синтетических данных выросла с 25.9% до 85.4%, а на реальных видео прирост составил 21.9 процентных пункта без какой-либо донастройки на реальный мир. При этом общие видео-способности модели не пострадали.
Что такое directional motion blindness
Video Large Language Models — это мультимодальные системы, которые сочетают визуальный энкодер, проектор и языковую модель для анализа видео. За последние два года они научились описывать длинные ролики, отвечать на вопросы о временной последовательности событий, распознавать сложные действия. Но когда речь заходит о базовом перцептивном примитиве — знаковом направлении движения в плоскости изображения — большинство моделей проваливаются.
Исследователи протестировали LLaVA-Video, Video-LLaVA, VideoChat2, Qwen2.5-VL, InternVL и другие популярные Video-LLM. На простейших синтетических видео с одним объектом, движущимся влево, вправо, вверх или вниз, точность большинства моделей близка к случайной — 25%. Даже GPT-4o показывает лишь 46.6% на простейших примитивах, а Gemini 2.5 Flash — 58.1%, что тоже далеко от надёжного распознавания. При этом модели, показывающие результат чуть выше случайного, часто делают это не благодаря пониманию направления, а из-за предсказательных смещений — например, чаще отвечают «вправо» независимо от входных данных.
Этот феномен получил название directional motion blindness. Он особенно контринтуитивен, потому что направление движения — не абстрактная концепция, а прямое следствие изменения положения пикселей между кадрами. Если модель видит кадры, она теоретически должна видеть и сдвиг. Но теоретически — не значит практически.
Где именно ломается pipeline
Чтобы понять, почему Video-LLM не справляются с направлением, исследователи проследили путь информации о движении через всю архитектуру — от визуального энкодера до финального токена ответа. Они использовали линейное зондирование (linear probing): если линейный классификатор может восстановить направление из замороженного представления, значит информация там присутствует в линейно доступной форме.
Результаты оказались неожиданными. Информация о направлении движения сохраняется на всех этапах: в выходе визуального энкодера SigLIP точность зондирования достигает 98.1%, в проекторе — 95.8%, в скрытых состояниях LLM — 94.7%. Движение не теряется при визуальной обработке. Оно не стирается проектором. Оно остаётся доступным даже в глубоких слоях языковой модели.
Проблема возникает на последнем этапе — в readout, финальном токене, который модель использует для генерации ответа. Хотя направление остаётся линейно декодируемым из скрытых состояний, модель не связывает этот сигнал с правильным вариантом ответа. Исследователи называют это direction binding gap — разрыв в привязке направления к вербальному ответу.
Проще говоря, модель «знает», куда двигался объект, но не может превратить это знание в правильный выбор между «A — влево» и «B — вправо». Это не проблема зрения и не проблема понимания языка. Это проблема связывания — способности соединить визуальный сигнал с конкретной языковой меткой в контексте вопроса.
Почему обучение направлению не решает проблему полностью
Если проблема в привязке, логичным решением выглядит instruction tuning — дообучение модели на вопросах о направлении движения. Исследователи создали для этого датасет MoDirect-Inst: 100 тысяч синтетических видео с вопросами о направлении, цвете и форме объектов. Дообучение на этих данных действительно срабатывает — на простейших примитивах точность вырастает до 99.5%.
Но стоит перейти к более сложным визуальным условиям — реальным объектам на реальных фонах — как gap возвращается. На датасете Cutout-on-Real, где используются сегментированные реальные объекты на реальных фонах, точность падает с 99.5% до 60.5%. Привязка, выученная на простых синтетических данных, не переносится в сложный визуальный мир.
Исследователи проанализировали, почему это происходит, с помощью concept vectors — векторов понятий направления, извлечённых методом difference-in-means. Они обнаружили, что после дообучения векторы направления хорошо выровнены по ориентации между разными визуальными доменами: направление «влево» указывает примерно в одну сторону независимо от того, примитив это или реальный объект. Но магнитуда этих векторов резко падает при увеличении визуальной сложности.
На простых примитивах вектор направления имеет достаточную амплитуду, чтобы модель могла его использовать. На реальных видео амплитуда сжимается — сигнал становится слишком тихим на фоне визуального шума. Модель по-прежнему «знает» направление, но это знание утопает в сложности сцены. Исследователи проверили это напрямую: если искусственно усилить магнитуду concept vector до уровня простых примитивов, точность на сложных данных восстанавливается.
DeltaDirect: усиливаем сигнал движения
Диагностика указывает на конкретную точку вмешательства: проектор, который переводит визуальные признаки в пространство языковой модели. Если сигнал о направлении слишком слабый к моменту входа в LLM, то какое бы дообучение ни применялось, языковая модель не сможет его надёжно использовать.
DeltaDirect — это вспомогательная цель обучения, которая работает только на этапе тренировки и не требует изменений во время инференса. Идея проста: для каждой пары соседних кадров вычисляется разница признаков проектора (feature delta), усреднённая по пространству. Из этой дельты предсказывается нормализованный двумерный вектор движения — по сути, направление сдвига объекта в плоскости изображения.
Формула feature delta выглядит так: для каждого момента времени t берётся разница между признаками кадра t+1 и кадра t, усреднённая по всем пространственным позициям. Эта операция подавляет статичный контент, который не меняется между кадрами, и усиливает именно движущиеся компоненты. Затем линейная головка предсказывает из этого дескриптора нормализованный вектор mt, который указывает направление движения без учёта скорости.
Ключевое преимущество DeltaDirect — локальность. MVP-ветвь (Motion Vector Prediction) обновляет только проектор и предсказательную головку, не трогая LLM-декодер. Во время инференса эта ветвь полностью удаляется: входные данные, токенизация и процедура декодирования остаются неизменными. Это значит, что DeltaDirect не добавляет задержек, не увеличивает память и не меняет формат взаимодействия с моделью.
Общая функция потерь сочетает стандартное предсказание следующего токена с вспомогательной MVP-задачей: L_total = L_LM + λ * L_MVP. Вес λ контролирует баланс между языковым и движенческим обучением. На практике исследователи использовали λ = 1.25.
Результаты: от случайных ответов к надёжному распознаванию
Эффективность DeltaDirect проверялась на трёх уровнях: синтетические контролируемые бенчмарки, реальные видео и общие задачи видеопонимания.
На MoDirect-SynBench — синтетическом бенчмарке с четырьмя доменами разной сложности — DeltaDirect показал рекордные результаты. На простых примитивах (Primitive-on-Syn) точность достигла 99.7%, на сегментированных реальных объектах (Cutout-on-Real) — 71.7%. Для сравнения, базовый LLaVA-Video-7B показывал 27.6% и 25.8% соответственно. Дообучение только на MoDirect-Inst (без DeltaDirect) давало 99.5% на простых данных, но лишь 60.5% на сложных — разрыв в 12.1 процентных пункта, который DeltaDirect полностью закрывает.
На MoDirect-RealBench — реальных видео из SSv2, KTH и TOMATO — прирост ещё более впечатляющий. DeltaDirect улучшил точность с 33.3% до 76.7% в среднем по всем категориям. При этом никакие реальные видео не использовались при обучении — модель обучалась исключительно на синтетических данных с векторным предсказанием, а обобщение на реальный мир происходило автоматически.
Для полноты картины исследователи провели полное дообучение (full fine-tuning) компактной модели Qwen2-0.5B с DeltaDirect. Результат: 92.4% в среднем на синтетических данных и 76.9% в среднем по всем бенчмаркам — сопоставимо с гораздо более крупными моделями, но с долей параметров.
Важно, что DeltaDirect сохраняет общие видео-способности. На стандартных бенчмарках MVBench, NExT-QA и других модель с DeltaDirect показывает результаты на уровне или выше базовой версии. Движение не конфликтует с пониманием сцен — оно дополняет его.
Почему это важно за пределами академических бенчмарков
Направление движения — фундаментальный строительный блок для многих прикладных задач. Автономные системы должны понимать, куда движутся пешеходы и другие транспортные средства. Роботы-манипуляторы отслеживают траекторию объектов, которые они собираются захватить. Системы видеонаблюдения анализируют потоки людей и выявляют аномальные паттерны. В медицинской визуализации направление движения тканей или жидкостей может сигнализировать о патологиях.
Если Video-LLM не справляются с элементарным «влево-вправо», их нельзя безоговорочно доверять в любой из этих задач. Directional motion blindness — не просто академическая курьёзность, а симптом более глубокой проблемы: разрыва между восприятием и действием. Модель видит, но не может использовать увиденное для конкретного ответа. Этот gap проявляется и в других областях, где требуется точная привязка визуальных сигналов к языковым меткам.
DeltaDirect демонстрирует, что проблема решаема — и решаема элегантно. Не нужно менять архитектуру, добавлять motion-энкодеры или увеличивать контекст. Достаточно усилить сигнал на правильном этапе pipeline, и модель сама научится связывать движение со словами.
Часто задаваемые вопросы
Может ли directional motion blindness встречаться и в других задачах?
Да. Direction binding gap — частный случай более общего феномена: модель может содержать релевантную информацию в скрытых состояниях, но не использовать её при генерации ответа. Подобные разрывы наблюдались в задачах пространственного рассуждения, цветовой идентификации и даже в refusal-поведении языковых моделей, где этичность решения кодируется в одном направлении активационного пространства.
Почему дообучение на синтетических данных помогает на реальных видео?
DeltaDirect учит не конкретные объекты или фоны, а инвариантное представление движения. Предсказание нормализованного вектора смещения заставляет проектор выделять именно изменение положения, а не внешний вид объекта. Эта инвариантность переносится на реальные сцены, потому что физика движения одинакова для синтетических кругов и реальных автомобилей.
Можно ли применить DeltaDirect к существующим моделям?
Да. DeltaDirect — это training-only модификация, которая требует только доступа к проектору во время обучения. Для популярных архитектур вроде LLaVA-Video, Qwen-VL и InternVL это означает дообучение с дополнительной вспомогательной задачей. Инференс остаётся неизменным, что упрощает развёртывание.
Итог
Исследование directional motion blindness показывает, что даже в продвинутых Video-LLM скрытысь слепые зоны, которые неочевидны из стандартных бенчмарков. Модель может блестяще описывать видео и отвечать на сложные вопросы, но проваливаться на задаче, которую решает двухлетний ребёнок. Проблема не в зрении и не в языке — в связывании. DeltaDirect закрывает этот разрыв, усиливая motion-сигнал на уровне проектора и позволяя модели научиться связывать движение со словами. Результат — рост точности с 25.9% до 85.4% на синтетических данных и 21.9 процентных пункта на реальных видео, без потери общих способностей и без изменений в инференсе. Это напоминание о том, что ИИ-способности не монолитны: прогресс в одной области не гарантирует компетентность в другой, даже если вторая кажется элементарной.