26.06.2026 Исследования

VISE: как заставить мультимодальную модель действительно смотреть на картинку

Покажите человеку изображение и задайте вопрос. Потом покажите ту же картинку ещё раз — и человек ответит одинаково. Это кажется очевидным. Но современные мультимодальные LLM ведут себя иначе: ответ меняется в зависимости от формулировки, порядка вариантов, даже от того, какой язык используется. Исследователи из Mohamed bin Zayed University of Artificial Intelligence нашли этому объяснение и назвали его точно — visual under-conditioning.

Проблема не в том, что модель плохо видит. Vision encoder может работать отлично. Проблема в том, что decoder — часть модели, генерирующая ответ, — привыкает «догадываться» из текста и перестаёт обращаться к визуальным токенам. Языковые шаблоны оказываются быстрее и статистически надёжнее, чем реальный анализ пикселей. Результат: модель галлюцинирует объекты, которых нет на картинке, или описывает сцену неправильно — но делает это уверенно и воспроизводимо. Именно эта уверенность и воспроизводимость создают ложное ощущение надёжности.

Почему существующие self-evolving LMM не решают проблему

Self-evolving подходы к улучшению мультимодальных моделей появились не вчера. Методы вроде EvoLMM, iReasoner, VisPlay и Agent0-VL строят системы, где одна часть модели генерирует вопросы (Proposer), а другая отвечает (Solver). Reward выдаётся за согласованность ответов при множественных прогонах — если модель отвечает одинаково несколько раз, значит, ответ «правильный».

Логика есть, но она не учитывает ключевое: высокая согласованность ответов не означает, что модель действительно опирается на визуальную информацию. Decoder может достигать стабильных ответов через чисто статистические паттерны — просто потому что одни слова чаще встречаются рядом с другими. Например, на вопрос «на чём стоит скейтборд?» модель отвечает «рампа» не потому что видит это на картинке, а потому что «скейтборд + рампа» — частый паттерн в её обучающих данных. Ответ стабильный, визуальной привязки нет.

Архитектура Proposer-Solver создаёт ещё одну проблему: обе роли оптимизируются совместно с противоположными целями, как в minimax-игре. На практике это приводит к нестабильности — одна роль часто доминирует. Proposer начинает генерировать тривиальные или дегенеративные запросы, гарантирующие согласие Solver. Solver переобучается под распределение Proposer и теряет способность к обобщению. Система заходит в локальный минимум, из которого не выбирается без внешнего вмешательства. Добавление external reward models и tool-assisted verification (VisPlay, Agent0-VL) усложняет архитектуру, но не устраняет фундаментальный дефект — reward построен на согласованности, а не на визуальной привязке.

Исследователи также заметили важную асимметрию: существующие self-evolving методы показывают улучшения на бенчмарках, требующих визуального мышления в структурированных задачах — математика, графики, диаграммы. Но на задачах, требующих детального визуального понимания — подписи к изображениям, описание областей, visual question answering в open-world сценах — они работают на уровне базовой модели или хуже. Это прямое следствие visual under-conditioning: модель научилась «правильно отвечать» без привязки к картинке на задачах, где визуальная информация минимальна, и не научилась делать то же самое там, где она критична.

Архитектура VISE: геометрическая и семантическая инвариантность

VISE (Visual Invariance Self-Evolution) — фреймворк, который борется с visual under-conditioning напрямую, вместо косвенных метрик вроде согласованности ответов. Ключевое архитектурное отличие: VISE оперирует внутри одной модели без разделения на Proposer-Solver роли и без внешних reward-моделей. Хорошо предобученная LMM уже обладает достаточными знаниями, чтобы формулировать осмысленные вопросы о своём визуальном контенте — ей не нужны внешние учителя или специализированные роли.

Training signal фреймворка строится на двух комплементарных invariance-based reward, которые применяются совместно:

Геометрическая инвариантность (geometric invariance reward). Если модель действительно «смотрит» на картинку, то её предсказание bounding box на геометрически трансформированном изображении должно соответствовать аналитически спроецированной версии предсказания на оригинале. VISE применяет пространственное преобразование T (ротация, сдвиг, масштабирование), предсказывает bounding box на трансформированной версии, и измеряет GIoU (Generalized Intersection over Union) между предсказанным боксом и спроецированным. Чем выше GIoU, тем лучше модель сохраняет визуальную привязку при трансформации — это означает, что decoder действительно использует визуальную информацию, а не свои статистические априоры. Если бы decoder работал от языковых шаблонов, предсказание на трансформированной картинке не соответствовало бы геометрии трансформации.

Семантическая инвариантность через ghosting (semantic invariance reward). Это более тонкий механизм, штрафующий конкретный вид visual under-conditioning — генерацию без визуального подтверждения. Модель предсказывает bounding box объекта на оригинальном изображении. Затем ghosting branch маскирует этот регион — применяется размытие, стирающее визуальную информацию. Если модель детектировала объект до размытия, но не видит его после — это означает, что до ghosting она опиралась именно на визуальные данные. Reward начисляется только при обнаружении объекта до perturbation и отсутствии после. Семантический reward штрафует situations, когда модель «угадывает» присутствие объекта из контекста, а не из изображения.

Комбинированный reward оптимизируется через KL-regularized REINFORCE относительно замороженной reference policy πo. Это предотвращает слишком большие отклонения от исходного поведения и стабилизирует обучение. Важно: никаких аннотаций bounding boxes, никаких метаданных, никаких external reward-моделей — только raw unlabeled images и собственные предсказания модели.

Цифры на 18 бенчмарках

VISE тестировали на 18 бенчмарках, охватывающих image captioning, VQA, visual reasoning и hallucination measurement. Базовый backbone — Qwen3-VL-2B. Frozen vision encoder, обновляются multimodal projector, feed-forward слои и decoder attention projections. Это мотивировано локализацией проблемы: vision encoder уже производит качественные визуальные представления, проблема в том, как decoder их использует. Запуск шумных reward-градиентов через encoder рисковал бы дестабилизировать уже хорошие репрезентации.

На COCO image captioning VISE достигает +16.85 CIDEr относительно базовой модели. На TextCaps — +19.66 CIDEr. Это существенные улучшения для задач, требующих точного визуального описания. Снижение галлюцинаций объектов измеряется на Chair-I бенчмарке: -5.0 points. Улучшения на VQA и reasoning бенчмарках также значимы и воспроизводятся.

Важнее всего другое: улучшения обобщаются на четыре семейства моделей и разные масштабы. Архитектура не привязана к конкретному размеру или варианту Qwen3-VL — та же методология работает и на больших, и на меньших моделях. Это говорит о том, что visual under-conditioning — системная проблема текущих архитектур self-evolving LMM, а не специфика одного размера.

Механистически эффект подтверждается напрямую: attention к визуальным токенам растёт по всем decoder-слоям во время генерации. Это не побочный эффект — это целевой результат обучения. Decoder действительно переходит от language-prior-driven decoding к image-conditioned decoding.

Почему это важно уже сейчас

VISE интересен не только как академический результат, но и как инженерное решение реальной проблемы. Галлюцинации в мультимодальных моделях — одна из главных причин, почему бизнес не может использовать их в продакшене без человеческой верификации. Финансовые отчёты, медицинские снимки, юридические документы — области, где галлюцинация недопустима. Если модель описывает «рампу» вместо «металлический выступ», последствия могут быть серьёзными.

Подход «без единой аннотации» тоже имеет практическое значение. Сбор размеченных данных для мультимодального обучения дорог и медленен. Возможность улучшать модель на raw images — это масштабируемый путь. Если модель может учиться на миллионах немаркированных изображений, улучшая свою визуальную привязку без human feedback, это радикально снижает стоимость и время доработки. VISE требует только raw images — никаких bounding boxes, категорий, текстовых описаний.

Кроме того, работа подчёркивает фундаментальное ограничение answer-agreement reward, которое применимо не только к VISE, но и к широкому классу self-improving систем. Любой инженер, использующий self-consistency как метрику качества, должен учитывать этот систематический bias: модель может быть стабильно не права, но согласованно.

Сравнение с альтернативами

EvoLMM использует Proposer-Solver formulation с continuous self-consistency rewards. iReasoner добавляет trajectory-aware rewards. VisPlay продвигает diversity и difficulty для предотвращения коллапса. Agent0-VL интегрирует tool-grounded self-verification. C2-Evo и DoGe работают над training instabilities через co-evolutionary data loops и role decoupling.

Все эти методы улучшают answer agreement, но не визуальную привязку. На структурированных задачах (math, charts, diagrams) они работают хорошо — визуальная информация там часто минимальна и быстро разрешается. Но на open-world visual understanding — где нужны детальные описания, локализация объектов, понимание сцены — visual under-conditioning становится критическим ограничением. VISE — первый метод, который оптимизирует именно визуальную привязку через invariance rewards, и результаты на COCO и TextCaps это подтверждают.

Часто задаваемые вопросы

Разве другие self-evolving методы не решают ту же проблему?

EvoLMM, iReasoner, VisPlay, Agent0-VL — все работают в парадигме Proposer-Solver и оптимизируют answer agreement. Они показывают хорошие результаты на структурированных задачах (математика, код по картинке), но на задачах детального визуального понимания — captioning, region description, open-world VQA — работают на уровне базовой модели. VISE — первый метод, который оптимизирует именно визуальную привязку, а не согласованность ответов, и измеряет результат через attention maps к визуальным токенам.

Почему single-model архитектура лучше Proposer-Solver?

Multi-role системы формируют implicit minimax игру, которая нестабильна при совместной оптимизации. На практике одна роль доминирует, и система коллапсирует в дегенеративные стратегии. VISE убирает это разделение: одна модель формулирует вопросы и отвечает на них внутри единого forward pass, что устраняет проблему доминирования ролей, упрощает обучение и убирает необходимость в нескольких специализированных forward-проходах.

Как проверить, что улучшения реальны, а не артефакт бенчмарков?

Авторы проверяют генерализацию на 4 семействах моделей и разных масштабах — улучшения воспроизводятся. Дополнительно приводится прямой анализ attention maps: внимание к визуальным токенам растёт по decoder-слоям, что подтверждает механистическую гипотезу, а не только числовые результаты. Это важно — числовые улучшения могут быть артефактом бенчмарка, но рост attention к визуальным токенам — это наблюдаемый, интерпретируемый сигнал.

Что конкретно означает снижение на 5.0 Chair-I points?

Chair-I измеряет object hallucination — случаи, когда модель «видит» объект, которого нет на изображении. Снижение на 5.0 points означает, что после VISE модель галлюцинирует объекты значимо реже. Для практических применений — документов, медицины, финансов — это измеримое улучшение надёжности.

Итог

VISE — не трюк и не улучшение одного бенчмарка. Это попытка исправить системную проблему мультимодальных LMM: decoder учится генерировать текст, минуя визуальные токены, потому что языковые шаблоны статистически «выгоднее». Геометрическая и семантическая инвариантность — два независимых механизма, которые заставляют модель обращаться к картинке, а не к своему статистическому словарю. Результат — измеримое улучшение на 18 бенчмарках без единой аннотации. Код и модели доступны на mbzuai-oryx.github.io/VISE.