Почему высокая вероятность ответа LLM не гарантирует его правильность

Почему высокая вероятность ответа LLM не гарантирует его правильность

Когда LLM уверенно выдаёт ответ с высокой вероятностью — веришь ему. Логика простая: модель «знает» ответ, потому что присвоила ему высокую оценку. Но это предположение ошибочно, и оно глубже, чем кажется.

Исследователи из MIT, Johns Hopkins и других учреждений (Johannes Zenn et al., 2026) провели систематический анализ: как соотносятся вероятность последовательности (sequence probability) и её корректность. Результат неожиданный — связь между ними зависит от уровня измерения. Внутри одного метода корреляция есть, но между методами она исчезает. Это открытие имеет прямое следствие для всех, кто использует LLM: доверять confidence score'ам стоит иначе, чем принято.

Что такое sequence probability

Large Language Model на каждом шаге генерирует следующий токен из распределения вероятностей. Перемножив все условные вероятности, получаем sequence probability — оценку того, насколько вероятной модель считает последовательность токенов целиком. Это не то же самое, что уверенность в отдельном токене.

Декодирующие методы делятся на два класса:

Локальные оперируют на уровне отдельных токенов. Temperature-семплирование сдвигает распределение, top-k отбрасывает маловероятные токены, truncating methods вроде epsilon-sampling обрезают хвост распределения. Эти методы модифицируют локальное распределение, но итоговая последовательность всё ещё выбирается авторегрессивно.

Глобальные оптимизируют последовательность целиком. Beam search сохраняет несколько кандидатов и выбирает наиболее вероятную полную последовательность. Nucleus sampling (top-p) отбирает минимальное множество токенов, суммарная вероятность которых превышает порог p. Эти методы уже выходят за рамки чисто локальной авторегрессии.

Главный результат: корреляция зависит от уровня

Исследователи тестировали модели Qwen3 серии (0.6B, 1.7B, 4B, 8B) на нескольких бенчмарках, варьируя декодирующие методы и их гиперпараметры. Фиксировали три метрики: log-probability последовательности, log-probability отдельных токенов и correctness (верность ответа).

Внутри одного метода (фиксированы модель, датасет, метод декодирования) высокая sequence probability действительно коррелирует с корректностью. Если сравнивать два ответа одной модели на одном датасете при одинаковом методе — более вероятный ответ чаще оказывается правильным.

При сравнении методов эта корреляция ломается. Beam search может выдавать более вероятную последовательность, чем nucleus sampling, но не обязательно более правильную. Более того — настройка гиперпараметров одного метода (например, изменение temperature от 0.5 до 1.0) может увеличить average log-probability, но не улучшить accuracy.

На графиках из статьи это видно отчётливо: точки для одного метода образуют наклонную линию (корреляция есть), но линии разных методов пересекаются и расположены на разных уровнях. Невозможно выбрать метод, просто посмотрев на его average sequence probability.

Почему это важно для практики

Три практических следствия.

Первое: если вы используете sequence probability для оценки уверенности модели (например, фильтруете ответы по порогу log-probability), это работает только в рамках одного метода. Подменили top-k на nucleus — данные по уверенности уже не сравнимы.

Второе: picking лучшего ответа из нескольких запусков одной модели по highest probability — валидная стратегия. Но picking между разными моделями или методами по probability — нет. Модель с более низкой average confidence не хуже; она просто калибрована иначе.

Третье: при evaluation LLM нельзя сравнивать methods по average log-probability как прокси для accuracy. Это независимые метрики.

Почему методы по-разному связывают вероятность и корректность

Ключевой вопрос: почему внутри одного метода связь сильнее, чем между методами? Ответ лежит в природе того, что оптимизирует каждый класс методов.

Локальные методы работают токен за токеном. Temperature сжимает или расширяет распределение: при T→0 получаем argmax (почти детерминированный), при T→1 распределение приближается к исходному, при T>1 распределение становится более равномерным. Top-k вводит жёсткий порог: только k наиболее вероятных токенов могут быть выбраны. Эти методы сохраняют структуру исходного распределения — они не переставляют относительные вероятности, а фильтруют или трансформируют их.

Глобальные методы оптимизируют другую цель. Beam search ищет последовательность с максимальной совместной вероятностью p(s|q) = Π_t p(s_t | s_{<t}, q). Это не то же самое, что «наиболее типичная» последовательность — это последовательность с наибольшим произведением условных вероятностей. На практике это означает, что beam search избегает токенов с низкой локальной вероятностью, даже если они были бы уместны в контексте. Это систематическое смещение в сторону «безопасных» токенов.

Nucleus sampling (top-p) занимает промежуточную позицию: это локальный метод по булевой маске, но порог p адаптируется к распределению. При p→1 получаем полное распределение, при очень маленьком p — почти argmax. Однако nucleus может случайно отбросить высоковероятный токен, если он единственный в хвосте, что создаёт нелинейные эффекты.

Детальный разбор результатов на Qwen3

Исследователи тестировали четыре размера модели Qwen3 (0.6B, 1.7B, 4B, 8B параметров) на бенчмарках MATH-Level 4 (математика), MMLU (многосторонний тест) и MBPP (программирование). На каждой модели прогоняли пять методов декодирования с несколькими значениями гиперпараметров.

На MATH-Level 4 с Qwen3-8B результаты по методам:

При nucleus sampling с p=0.9 average log-probability последовательности около -1.2 натокен, accuracy — 47.2%. При увеличении p до 0.95 (больше токенов в ядре) log-probability растёт до -1.0, но accuracy остаётся на уровне 47.5% — в пределах статистической погрешности.

Beam search с width=4 показывает log-probability -0.85 (заметно выше), но accuracy — 46.8% (чуть ниже). Width=8 даёт -0.72 и 46.1%. Чем шире beam, тем выше вероятность последовательности, но качество не улучшается.

Temperature=0.7 с log-probability -1.4 даёт 48.1% accuracy — одна из лучших комбинаций по accuracy, при этом далеко не самая высокая вероятность.

Temperature=1.2 (более случайная генерация) с -1.9 log-probability всё ещё показывает 45.3% accuracy — разрыв между вероятностью и точностью составляет 15 процентных пунктов.

Practical implications для разработчиков и исследователей

Результаты исследования переворачивают несколько укоренившихся практик.

Какую ошибку совершают при бенчмаркинге. Стандартный подход: взять модель, выставить decoding method A, измерить average log-probability и accuracy, затем поменять на method B и сравнить обе метрики. Если accuracy выросла, а log-probability упала — делается вывод, что модель стала «менее уверенной, но более точной». Этот вывод некорректен, потому что метрики не сравнимы между методами напрямую. Log-probability для beam search и nucleus sampling измеряет разные вещи, даже если называется одинаково.

Что это значит для RLHF и fine-tuning. Reinforcement Learning from Human Feedback (RLHF) и его варианты (DPO, PPO) часто используют log-probability как часть reward signal. Если reward штрафует за снижение average log-probability, а модель одновременно переходит с одного decoding method на другой — штраф может срабатывать неправильно. Модель получает negative reward не за деградацию качества, а за смену метода декодирования. Исследователи отмечают, что это объясняет, почему некоторые RLVR-обущённые модели показывают хорошую accuracy при заметно более низкой log-probability — они перешли на более «рискованный» стиль генерации, который статистически реже допускает грубые ошибки, но чаще генерирует нестандартные последовательности.

Как выбирать decoding method на практике. Исследование даёт конкретный алгоритм: (1) зафиксировать method и его hyperparameters; (2) измерить accuracy и calibration на репрезентативном датасете; (3) если нужно улучшить — менять hyperparameters только внутри одного метода, не переключаясь между методами для «усреднения» результатов; (4) при model selection сравнивать модели только при идентичном методе декодирования. Перекрёстное сравнение моделей с разными decoding methods — это сравнение несравнимых объектов.

Что это значит для калибровки уверенности

Проблема калибровки (насколько уверенность модели соответствует её реальной accuracy) обостряется этим результатом. Стандартные метрики калибровки вроде Expected Calibration Error (ECE) предполагают, что confidence и accuracy монотонно связаны. Это верно внутри метода, но глобально — нет.

Исследователи предлагают рассматривать калибровку per-method: оценивать ECE отдельно для каждого декодирующего метода, а не усреднять. Это более честная картина, и она объясняет, почему некоторые методы выглядят «переуверенными» при усреднённом анализе — на самом деле они просто калиброваны под своё распределение.

FAQ

Почему у разных методов разная калибровка?

Локальные методы модифицируют распределение на каждом токене, но выбор всё ещё авторегрессионный. Глобальные методы оптимизируют целевую функцию на уровне последовательности, что создаёт иной баланс между typicality (типичностью последовательности) и correctness. Модель, максимизирующая typicality, не всегда максимизирует correctness.

Можно ли использовать sequence probability как метрику для model selection?

Только внутри одного семейства моделей и одного декодирующего метода. Сравнивать Qwen3 и Llama по average log-probability бессмысленно — у них разные калибровки. Сравнивать beam search и nucleus по log-probability — тоже.

Какой практический вывод для production?

Не полагаться на confidence score как на универсальный индикатор. Если задача требует фильтрации по уверенности — использовать один и тот же метод. Если нужна уверенность в правильности ответа — использовать verification (external check, self-consistency, tool use), а не probability threshold.

Влияет ли размер модели на эту динамику?

Да, и это ещё один слой сложности. У smaller моделей (0.6B) разрыв между внутриметодной и межметодной корреляцией менее выражен — вероятно, потому что smaller модели менее калиброваны в целом. У larger моделей (4B, 8B) паттерн становится отчётливее: внутри метода корреляция усиливается, но межметодная разница сохраняется. Это означает, что эффект не исчезает при масштабировании — он становится более предсказуемым внутри метода, но не более универсальным.

Стоит ли вообще использовать log-probability?

Стоит — но как метрику в паре с accuracy, не как её замену. Если вы видите, что average log-probability модели падает при переходе на новый decoding method — измерьте также accuracy и calibration. Падение log-probability без падения accuracy означает, что модель просто изменила стиль генерации, и это не проблема. Падение log-probability с падением accuracy — это уже реальная проблема, требующая исследования.

Итог

Результат исследования простой по формулировке, но важный по последствиям: связь между вероятностью ответа и его корректностью в LLM — не универсальная, а контекстно-зависимая. Выше вероятность — чаще правильнее, но не всегда и не линейно. Это значит, что популярная практика использовать log-probability как proxy для confidence требует осторожности, а model evaluation должно быть method-specific, а не усреднённым.

Когда следующий раз увидите, что LLM выдала ответ с высокой уверенностью — не спешите доверять. Посмотрите, каким методом она его получила.

← Все записи