VISE: как заставить мультимодальную модель смотреть на изображение, а не угадывать
VISE: как заставить мультимодальную модель смотреть на изображение, а не угадывать
Представьте модель, которая описывает фотографию: «на столе стоит чашка кофе». Звучит разумно. Но если присмотреться — на картинке чая нет вообще. Модель не врет в классическом смысле. Она просто... не смотрела. Этот феномен называется visual under-conditioning — ситуация, когда декодер мультимодальной модели опирается на статистические языковые паттерны вместо реальных визуальных данных.
Именно эту проблему решает VISE (Visual Invariance Self-Evolution) — исследование команды из MBZUAI (Mohamed bin Zayed University of Artificial Intelligence). Фреймворк обучает модель действительно видеть изображение, а не угадывать содержание по статистике текста.
Что такое visual under-conditioning и почему это серьезная проблема
Современные саморазвивающиеся мультимодальные модели (LMMs) обучаются без учителя: они генерируют вопросы к изображению, отвечают на них, сравнивают несколько ответов и выбирают наиболее согласованный. Логика в том, что если модель дает один и тот же ответ на разные формулировки вопроса — значит, ответ правильный.
Но это логика из мира текста, перенесенная в мир изображений без изменений. Такой подход оптимизирует согласованность ответов, а не их визуальную обоснованность. Модель может достигать высокой согласованности за счет языковых приоритетов — она знает, что «чай» чаще встречается с «чашкой», чем «газировка». И находит эти статистические корреляции убедительнее, чем пиксели на фотографии.
Конкретно это проявляется как недостаточное внимание к визуальным токенам во время декодирования. Декодер «запоминает», какие текстовые последовательности статистически связаны, и генерирует их, даже если изображение говорит об обратном. Модель становится жертвой собственного языкового опыта: чем больше данных она видела, тем увереннее игнорирует картинку.
Существующие self-consistency подходы (EvoLMM, iReasoner, VisPlay) не просто не решают эту проблему — они ее усугубляют. Оптимизация на согласованность учит модель быть более уверенной в языковых паттернах, а не в визуальных фактах. Результат: регресс на задачах captioning, рост галлюцинаций.
Как устроен VISE
VISE заменяет оптимизацию согласованности ответов на два инвариантных вознаграждения. Вместо «давай одинаковые ответы» — «давай ответы, подкрепленные визуальными доказательствами».
Геометрическое инвариантное вознаграждение (geometric invariance reward) работает следующим образом: на каждом шаге обучения модель получает изображение и генерирует к нему запрос (query) — вопрос о конкретном объекте на картинке. Затем она предсказывает bounding box для этого объекта на исходном изображении и на трансформированной версии (к изображению применяется геометрическое преобразование — поворот, отражение или масштабирование). Если модель действительно опирается на пиксели, она «увидит» один и тот же объект в разных ракурсах, и предсказанные координаты изменятся предсказуемо. Если опирается на языковые паттерны — предсказания разойдутся хаотично, что приведет к штрафу.
Координаты нормализованы в пространство [0, 1000]^4, где S = 1000. Если пиксельная координата c_pix вдоль измерения D, то нормализованное значение: c_tilde = (c_pix / D) × S. Это стандартный подход к представлению bounding boxes вvision-language моделях.
Семантическое инвариантное вознаграждение (semantic invariance reward) использует технику perturbation: часть изображения заменяется на «призрачную» версию, где визуальные статистики сохранены, но конкретные детали изменены. Модель должна определить, изменился ли ответ на запрос о локализованном объекте. Если модель действительно читала эту область — ответ изменится. Если «угадывала» — скорее всего, останется прежним, что будет оштрафовано. Семантическое вознаграждение напрямую штрафует генерацию без визуального подтверждения.
Ключевое архитектурное решение: VISE работает внутри одной модели без отдельных специализированных ролей (proposer/solver), без внешних reward-моделей и без какой-либо разметки. Достаточно сырых изображений — никаких bounding boxes, капшенов или категорий. Qwen3-VL используется как базовый backbone с замороженным vision encoder; обновляются только multimodal projector, feed-forward слои и attention projections декодера.
Почему стандартные подходы не работают
Большинство существующих саморазвивающихся фреймвормов используют схему Proposer-Solver: одна роль генерирует вопросы, вторая отвечает. Это создает неявную минимакс-игру: роли оптимизируются совместно с противоположными целями, что делает обучение нестабильным на длинных горизонтах.
На практике одна роль часто доминирует. Proposer может коллапсировать в тривиальные или дегенеративные запросы, которые гарантируют согласие. Или Solver переобучается под распределение Proposer и перестает обобщать. Система попадает в локальные минимумы, которые трудно исправить без внешнего вмешательства.
Фокус на правильности ответа как основной метрике тоже проблематичен. Высокая согласованность ответов не означает улучшение визуального понимания — модель может быть само-согласованной, но при этом опираться на статистические языковые априоры. Результаты на Table 1 это подтверждают: EvoLMM показывает −0.70 CIDEr регресс на COCOcaptioning, несмотря на улучшения на structured reasoning бенчмарках.
Эксперименты: подробные результаты
Эксперименты проведены на 18 бенчмарках с моделью Qwen3-VL-2B в качестве базовой. Все результаты получены без какой-либо разметки — только на сырых изображениях.
На задачах генерации подписей к изображениям (image captioning) результаты впечатляют. На COCO CIDEr базовая модель показывает 21.54; VISE доводит этот показатель до 38.39 — это +16.85 пункта. На TextCaps рост еще больше: с 22.20 до 41.86 (+19.66). Для сравнения, EvoLMM показывает −0.70 на COCO и −0.94 на Flickr30k, iReasoner — −0.61 и −0.86 соответственно. VisPlay дает небольшой рост +2.31 на COCO, но все равно далек от VISE. Аргумент в пользу VISE простой: конкурирующие self-consistency подходы не просто не улучшают captioning — они его ухудшают.
На бенчмарке галлюцинаций POPE (Object Hallucination, Chair-I metric) VISE сокращает hallucination rate на 5.0 пунктов. Это означает, что модель гораздо реже «придумывает» объекты, которых нет на изображении. При работе с пользовательским контентом это критически важно — фото отзыва, скриншот документа, изображение товара.
На reasoning бенчмарках (ScienceQA, CaptionQA) VISE показывает улучшения на +2-3 пункта. Важно: улучшения достигаются на четырех модельных семействах и масштабах от 2B до 8B параметров, что говорит о хорошем обобщении подхода.
Анализ: что дает каждое вознаграждение
Ablation study показывает, что основной вклад вносит семантическое вознаграждение — оно отвечает за основную часть улучшений. Геометрическое вознаграждение дает дополнительный прирост, но меньший. Вместе они покрывают разные измерения проблемы: геометрическое проверяет пространственную согласованность, семантическое — фактическую обоснованность.
Гиперпараметры не требуют точной настройки: эксперименты с разными весами вознаграждений (0.75/0.25, 0.50/0.50, 0.25/0.75) и KL divergence targets (0.010, 0.020, 0.050) показывают различия менее 0.5 CIDEr между конфигурациями. Это важно для воспроизводимости: результаты VISE — робастное свойство самой функции вознаграждения, а не артефакт тонкой настройки.
Эксперименты с LoRA vs full fine-tuning показывают, что LoRA при замороженном энкодере работает лучше полной настройки. Это практически значимо: LoRA требует значительно меньше вычислительных ресурсов, а результат получается лучше.
Что это значит на практике
VISE показывает фундаментальный сдвиг в оценке прогресса мультимодальных моделей. Согласованность ответов — ложный ориентир. Модели могут достигать высокой согласованности без реального понимания изображений — точно так же, как студент, зазубривший билеты, может уверенно отвечать, не понимая материала.
Инвариантность к визуальным трансформациям и чувствительность к удалению визуальных свидетельств — более прямые и надежные сигналы. Они проверяют именно то, что важно: способность модели читать пиксели, а не статистику текста.
Важное инженерное наблюдение: LoRA fine-tuning при замороженном vision encoder — оптимальный tradeoff между адаптивностью и стабильностью. Это открывает возможность дообучения мультимодальных моделей для специфических задач без риска дестабилизировать уже качественные визуальные представления.
Почему это важно именно сейчас
Мультимодальные модели становятся основой пользовательских AI-приложений: описывают фотографии, отвечают на вопросы о видео, генерируют изображения по текстовым запросам. По мере роста их использования растет и риск систематических ошибок, которые выглядят убедительно, потому что следуют из статистики языка, а не из реальности.
Когда AI-ассистент описывает медицинский снимок, визуальное понимание — не просто желательная черта, а вопрос безопасности. Модель, которая «додумывает» детали изображения, может пропустить критически важные аномалии.
Рост популярности vision-language моделей в автоматизации (анализ документов, модерация контента, описывание товаров) делает надежное визуальное grounding все более критичным. VISE предлагает путь к моделям, которые действительно смотрят на то, что описывают.
Часто задаваемые вопросы
Почему замораживают vision encoder?
Vision encoder уже производит качественные визуальные представления — проблема локализована в декодере. Если позволить градиентам распространяться в энкодер, это рискует дестабилизировать уже качественные представления без решения основной проблемы. LoRA при замороженном энкодере — оптимальный tradeoff между адаптивностью и стабильностью, что подтверждается экспериментами: LoRA превосходит full fine-tuning на всех метриках.
Подходит ли VISE для любых мультимодальных моделей?
Эксперименты подтвердили обобщение на четыре семейства моделей, от 2B до 8B параметров. Архитектурные детали применимы к любой LMM с ViT-подобным энкодером и декодером на основе attention. Основное требование — способность модели локализовывать объекты по запросу.
Как измеряется снижение галлюцинаций?
Бенчмарк POPE (Object Hallucination) оценивает частоту, с которой модель «видит» объекты, отсутствующие на изображении. VISE снижает этот показатель на 5.0 пунктов Chair-I — это означает ощутимо меньше ложных объектов в генерациях.
Какие данные нужны для обучения VISE?
Никакой разметки. VISE обучается на сырых изображениях без аннотаций, bounding boxes или категорий. Это принципиальное отличие от supervised подходов и делает фреймворк масштабируемым: достаточно иметь коллекцию изображений.
Итог
VISE демонстрирует, что текущий фокус на self-consistency как метрике качества мультимодальных моделей — тупик. Модели могут быть уверенно неправы, и это проблема не багов или недостатка данных, а неправильной функции вознаграждения.
Настоящий прогресс — в визуальной обоснованности: способности модели ссылаться на конкретные пиксели, а не на статистические паттерны в тексте. Для практиков это означает, что при выборе модели для задач с визуальным контекстом имеет смысл оценивать не только accuracy, но и устойчивость к визуальным трансформациям — она лучше коррелирует с реальным пониманием изображения.
Код и модели открыты на проектной странице.