Multimodal LLM чувствительны к порядку данных: результаты аудита 18 моделей
Представьте: вы показываете модели одно и то же изображение и вопрос. Потом меняете порядок вариантов ответа — и модель отвечает иначе. Меняете порядок документов в RAG — ответ снова другой. Это не баг конкретной модели. Это систематическая особенность 18 мультимодальных LLM, которую стандартные бенчмарки не замечают, потому что тестируют в одном каноническом порядке. Исследование из Стэнфорда под руководством Akshay Paruchuri, Sanmi Koyejo и Ehsan Adeli проверило, что происходит с ответами, когда одни и те же данные подаются в разном порядке. Результат: все 18 моделей оказались чувствительны к порядку. Лучшая — всё ещё меняла 13,4% ответов.
Почему порядок данных — это проблема для MLLM
Стандартные бенчмарки для мультимодальных LLM тестируют каждый пример в одном каноническом порядке: картинка слева, текст справа, варианты ответа A/B/C/D. Эти бенчмарки молчаливо предполагают, что перестановка семантически эквивалентных элементов не повлияет на ответ. В реальных системах это не так.
Порядок данных в продакшене определяется внешними системами. Retrieval pipeline в RAG устанавливает порядок документов — и разные retrieval-системы ранжируют по-разному. Agentic планировщики инструментов задают порядок вызовов в зависимости от стратегии. Клинические интерфейсы формируют порядок ввода из электронных медкарт. Пользовательские формы собирают данные в последовательности, которые зависят от UI. Если модель даёт разные ответы на одну и ту же информацию в разном порядке — каноничная точность бенчмарка завышает реальную надёжность. И это критично для систем, где пользователь ожидает: одна и та же информация — один ответ.
Facet-Probe: пять граней одной проблемы
Исследователи разработали Facet-Probe — методику аудита по пяти направлениям. Каждое измеряет чувствительность к определённому типу перестановки.
Option-order — меняется порядок вариантов ответа (A/B/C/D → D/C/B/A). Самая очевидная грань, широко изучаемая в текстовых моделях, но не в мультимодальных. Evidence-chunk-order — переставляются блоки текста или фрагменты документа. Релевантно для задач, где модель получает несколько абзацев и должна на них опираться. Document-rank-order — релевантные документы в RAG подаются в разном порядке. Image-set-order — несколько изображений перемешиваются между собой. Mixed-modality-order — комбинация: текст, картинки и варианты ответа переставляются одновременно.
Аудит охватил 18 моделей: 6 закрытых frontier-моделей (Gemini-Pro 3.1, Gemini-Flash 3, Claude Opus 4.7, Claude Sonnet 4.6, ChatGPT 5.5, ChatGPT 5.4-mini) и 12 open-weight (семейства Qwen3.5, InternVL3.5, Kimi-VL, MedGemma). Суммарно — более 400 000 испытаний на 12 датасетах. K=6 означает: каждый пример тестируется в 6 различных перестановках. K=3 уже обнаруживает大部分 сигнала, K=6 — рабочая точка для публикации.
Для декомпозиции шума измерений использовалась ODI (Ordering-Decomposed Item-Response Theory) — иерархическая байесовская модель item-response, которая разделяет собственно чувствительность к порядку (ordering noise σ_π) от систематического смещения по граням (bias |δ|). Ключевое нововведение — same-ordering control: один и тот же запрос повторяется 6 раз с идентичным порядком, чтобы оценить «пол» декодировочного шума и выделить избыточную нестабильность, связанную именно с перестановкой данных. Это принципиальное отличие от предыдущих работ, которые не разделяли эти два источника нестабильности.
Что показал аудит: все 18 моделей чувствительны
Ни одна из 18 моделей не оказалась инвариантна к порядку. Скорректированные per-facet mean flip rates при K=6 составили 24–50%. Это означает: от четверти до половины ответов модели меняются при изменении порядка одних и тех же данных.
Корреляция между способностями модели и частотой переключения ответов сильна, но не устраняет проблему. Коэффициент Спирмена ρ ≈ −0.95 по всей панели: более способные модели действительно реже меняют ответ, но даже лучшая — Gemini-Pro 3.1 — при K=6 переключала 13,4% ответов. Capability предсказывает, но не устраняет.
Same-ordering control на Gemini при температуре 0 показал: избыточная нестабильность относительно декодировочного шума значительна в верифицированных ячейках. Это значит, что значительная часть переключений — не случайность декодера, а именно реакция на изменение порядка. Декодер-стохастический пол объясняет только часть нестабильности.
Механизм: почему модели так реагируют
Анализ механизмов выявил content rationalization как доминирующий режим отказа в категориальных ячейках. Модель, столкнувшись с непривычным порядком, рационализирует — объясняет себе, почему «правильный» ответ теперь выглядит иначе. Это не ошибка распознавания и не проблема с памятью. Модель буквально пересматривает фактическую информацию через призму изменившегося контекста.
Корреляция ρ ≈ −0.95 указывает на фундаментальную связь: модель, которая лучше понимает задачу, лучше понимает, что порядок не должен влиять — но даже лучшие модели не полностью компенсируют это. Предыдущие работы в текстовых LLM (Pezeshkpour and Hruschka, 2024; Chen et al., 2024b; Laban et al., 2023) показали аналогичную картину, но для мультимодального случая вопрос был открыт — наш аудит закрывает его.
Для image-set-order исходный механизм был собран до применения position-reference screen (Mantis-Eval исключает 52/70 items из-за позиционных ссылок) и является exploratory. Авторы подчёркивают: нужен повтор на очищенной выборке, прежде чем делать выводы о визуальном субстрате.
Можно ли исправить промптом: тревожный результат
Исследователи протестировали несколько интервенций на уровне инференса. Chain-of-thought annotator (CTA) — инструкция «рассуждай пошагово» — дал асимметричный эффект. На текстовых задачах high-baseline (MedXpertQA) flip rate снизился с 0.30 до 0.18 — абсолютное падение на 12 процентных пунктов, относительное — 40%. На визуальной задаче сопоставимой сложности (mathvision) эффекта нет: Gemini-Pro 0.29 → 0.29, Gemini-Flash 0.35 → 0.35. CTA не устраняет визуальную чувствительность к порядку.
Комбинация CTA с multi-pass reconciliation работает антисинергетично: на medxpertqa результат ухудшается (Pro 0.18 → 0.29, Flash 0.30 → 0.40). Это главный негативный результат для промпт-уровневых интервенций: одна техника не работает универсально, и несколько техник вместе дают хуже, чем одна.
Think-budget (увеличение длины цепочки рассуждений) эффективен селективно. На сложных задачах с перестановкой блоков evidence (evidence-chunk-order) Gemini-Pro показал монотонное снижение flip при росте бюджета: 1k → 24k токенов даёт 0.41 → 0.28. На простых задачах с перестановкой опций (MMLU-Pro) эффекта на flip нет — accuracy растёт в обоих случаях до 0.93, но flip остаётся flat на уровне 0.08–0.12. Think-budget помогает только на сложных задачах и только в определённых модальностях.
Order-aware minimal-disclaimer (P15), Canonicalizing-CoT (T4), и PINE-lite — null или marginal в средних значениях по моделям (детали в Appendix G статьи).
Что это значит для практики
Каноничная точность бенчмарков завышает надёжность. Модель, показывающая 92% на VQA-бенчмарке, в реальном RAG-пайплайне может давать существенно другие ответы в зависимости от порядка документов в контексте. Для задач с высокой ставкой — клинические интерфейсы, юридические заключения, финансовые рекомендации — это критическая уязвимость, которую стандартный бенчмарк не показывает.
Авторы предлагают ввести cross-ordering flip rate как стандартную метрику в model cards наряду с accuracy. Это следует логике Mitchell et al. (2019) о model-card disclosure и NIST AI 800-2 о «квалифицированных заявлениях» — документировать известные ограничения нужно явно, а не скрывать за одним числом accuracy. Same-ordering control должен стать методологической проверкой по умолчанию: он показывает «пол» нестабильности от декодера, чтобы числа flip rate можно было интерпретировать в правильном масштабе.
Промпт-уровневые интервенции — временное решение с ограниченной областью действия. Лучший практический шаг сегодня: документировать порядок входных данных как конфигурационный параметр развёртывания и тестировать систему на нескольких перестановках до вывода в production.
Архитектурные причины и путь вперёд
Чувствительность к порядку — не случайность, а следствие того, как устроены трансформеры. Attention механизм взвешивает токены по позициям, и это взвешивание чувствительно к относительному расположению элементов. В текстовых моделях проблема частично компенсируется масштабом предобучения, где каноничный порядок (A/B/C/D) встречается несопоставимо чаще, чем D/C/B/A. Для мультимодальных моделей, где режимы перемешаны и отношение порядка к содержанию менее очевидно, эффект усиливается.
Будущие работы, вероятно, пойдут по трём направлениям. Permutation-augmented pretraining — предобучение с аугментацией перестановками, чтобы модель видела все варианты порядка равномерно. Контрастивные objectives по порядку — штраф за разные ответы при одинаковом содержании. Архитектурные изменения — permutation-invariant architecture, как SET-LLM (Egressy and Stühmer, 2026). До их появления — проблема остаётся нерешённой на уровне инференса.
Часто задаваемые вопросы
Разве LLM не должны быть инвариантны к порядку по своей природе?
Нет. Трансформеры исторически показывали позиционную чувствительность — attention механизм взвешивает токены по позициям. Для текста эта проблема частично компенсируется масштабом предобучения, где каноничный порядок встречается несопоставимо чаще. Для мультимодальных моделей, где режимы перемешаны, эффект усиливается. Наш аудит показывает, что даже после大规模 предобучения инвариантность не достигнута — и это фундаментальный вызов дляdeployment.
Это касается только frontier-моделей или open-weight тоже?
Все 18 протестированных моделей показали чувствительность к порядку. Среди open-weight — Qwen3.5, InternVL3.5, Kimi-VL, MedGemma — результаты сопоставимы с закрытыми моделями. Корреляция способностей и частоты flip (ρ ≈ −0.95) сильнее, чем разница между открытыми и закрытыми весами: хорошая open-weight модель стабильнее плохой closed-source. Разрыв в capability объясняет больше variance, чем открытость весов.
Как измерить чувствительность моей модели?
Facet-Probe — открытый инструмент: https://github.com/yahskapar/facet-probe. Для быстрой оценки соберите свой бенчмарк, сгенерируйте K=3–6 перестановок каждого примера и посчитайте долю ответов, которые изменились. K=3 уже обнаруживает大部分 сигнала, K=6 — рабочая точка для публикации. Чем выше K, тем ниже вероятность пропустить чувствительность (K-monotone property).
Почему CTA работает на тексте, но не на картинках?
Авторы предполагают визуальный субстрат как возможное объяснение, но не доказывают его. Текстовые задачи допускают пошаговое рассуждение, которое выравнивает интерпретацию вариантов. Визуальное восприятие более holistično — изменение порядка изображений меняет само восприятие сцены, а не только рассуждение о ней. Это объяснение согласуется с данными, но механизм требует отдельного исследования.
Итог
Facet-Probe обнажил систематический слепой угол в оценке мультимодальных LLM. Стандартные бенчмарки тестируют модели в каноничном порядке и молчаливо предполагают инвариантность к перестановке — но в реальных системах порядок определяется retrieval, агентами, интерфейсами. Все 18 моделей оказались чувствительны: даже лучшие меняют 13,4% ответов при изменении порядка одних и тех же данных.
Промпт-уровневые интервенции не универсальны и не compose. Путь вперёд — обучающие и архитектурные изменения: permutation-augmented pretraining, контрастивные objectives по порядку, permutation-invariant architecture. До их появления — документируйте порядок входов как параметр развёртывания и тестируйте на множественных перестановках. Accuracy без flip rate — неполная метрика.