Рейтинги LLM не работают: почему лидерборды вводят нас в заблуждение
Вы зашли на Chatbot Arena, чтобы выбрать лучшую языковую модель. Видите: Gemini-2.5 на первом месте, Grok-4 на третьем, o3 на четвёртом. Кажется, выбор очевиден — берите лидера. Но вероятность того, что модель номер один действительно лучше модели номер пятьдесят, составляет всего 53%. Это практически подбрасывание монеты.
Исследователи из Carnegie Mellon и MIT Sloan проанализировали 89 000 пользовательских сравнений 52 языковых моделей на платформе Arena (LMArena) и пришли к выводу, который ставит под сомнение всю систему глобальных лидербордов: единый рейтинг не отражает реальных предпочтений пользователей. Работа опубликована в мае 2026 года на arXiv (2605.06656).
Что такое лидерборды LLM и как они работают
Лидерборды языковых моделей — это платформы, где пользователи сравнивают ответы двух моделей вслепую: не зная, какая модель сгенерировала каждый ответ, выбирают лучший. Платформа Arena (ранее LMArena), разработанная группой LMSYS, стала де-факто стандартом такой оценки — её цитирует даже Wall Street Journal.
Система работает по модели Bradley-Terry: каждая модель получает Elo-рейтинг (как в шахматах), а разница в очках между двумя моделями определяет вероятность победы одной над другой. Разрыв в 400 очков означает примерно 10 к 1 в пользу лидера. Проблема в том, что на практике разрыв между моделями оказался крошечным.
72% голосов взаимно уничтожаются
Главный и самый неожиданный результат исследования: 72,28% решающих (не ничейных) голосов взаимно отменяются. Это значит, что если один пользователь предпочёл модель A модели B, то с вероятностью около трёх четвертей найдётся другой пользователь, который в аналогичной ситуации выбрал модель B. На уровне всей базы данных эти противоположные предпочтения «схлопываются», и глобальный рейтинг превращается в усреднённую серединную ничью.
Последствия впечатляют. Глобальный рейтинг способен предсказать победителя с уверенностью выше 70% лишь для 11% всех голосов. Это при том, что речь идёт о тренировочных данных — тех самых голосах, на которых рейтинг был построен. Если модель не может объяснить данные, на которых обучена, это серьёзный диагноз.
Между первой и пятидесятой моделями в глобальном рейтинге — всего 50 очков Elo. Это соответствует вероятности победы лидера над аутсайдером в 53%. Для сравнения: если бы вы подбрасывали монету, вы были бы правы в 50% случаев. Разница между «лучшей» и «пятидесятой» моделью — три процентных пункта.
Язык — главный фактор
Исследователи проверили множество гипотез о том, откуда берётся эта неоднородность. Разбивали голоса по времени суток, по типу задачи (код, творчество, математика), по случайным подгруппам. И обнаружили чёткую закономерность: язык — главный драйвер различий в предпочтениях.
Когда исследователи сгруппировали голоса по языкам и языковым семьям (германская, романская, славянская, индоиранская, китайско-тибетская и другие), картина кардинально изменилась. Внутри каждой языковой группы предпочтения стали удивительно согласованными — разброс Elo-очков вырос на два порядка по сравнению с глобальным рейтингом. То, что на глобальном уровне выглядит как хаос и шум, внутри языковых групп оказывается упорядоченной, связной картиной.
Это открытие имеет прямое практическое значение. Модель, доминирующая в англоязычных запросах, может полностью провалиться в арабском или хинди. Исследователи приводят показательный пример: Grok-4, входящий в глобальную пятёрку лучших, в рейтинге по афразийской языковой семье падает на 52-е место — то есть на самое дно из всех 52 моделей. Глобальные топ-модели (Gemini-2.5P, Grok-4, o3) меняют свои позиции на 5–14 мест при переходе от одной языковой семьи к другой.
«Портфолио» вместо одного рейтинга
Вместо того чтобы пытаться построить один «правильный» рейтинг, авторы предлагают принципиально иной подход — портфолио моделей. Идея проста: не искать одну модель, которая устраивает всех, а подобрать небольшой набор моделей, так чтобы каждый пользователь нашёл в этом наборе хотя бы одну, которая его устраивает.
Математически это формулируется как задача покрытия множества (set cover problem). Для каждого голоса проверяется, есть ли в портфолио хотя бы один рейтинг, который предсказывает его исход с достаточной точностью. Авторы используют жадный алгоритм и метод целочисленного программирования для поиска минимального набора.
Результаты говорят сами за себя. Из 389 рейтингов, построенных для различных языковых и задачных подгрупп, алгоритм отобрал всего 4–5 рейтингов, которые покрывают свыше 96% всех голосов с умеренной погрешностью. Для сравнения: единый глобальный рейтинг при той же погрешности покрывает лишь 21% голосов. Это пятикратная разница.
Аналогичный результат получается и на уровне самих моделей. Портфолио из 6 языковых моделей покрывает вдвое больше голосов, чем произвольный набор из 6 моделей, взятых из вершины глобального рейтинга. Иными словами, если вы просто возьмёте шесть «лучших» моделей по Arena — вы обслужите вдвое меньше пользователей, чем если подберёте шесть моделей с учётом языковой специфики.
Интересно, что метод целочисленного программирования (MIP) даёт ещё более компактные портфолио, чем жадный алгоритм: при том же пороге ошибки λ=0.50 метод MIP находит портфолио из 4 рейтингов против 5 у жадного алгоритма. Оба подхода существенно превосходят глобальный единый рейтинг.
Что это значит для практики
Прямое следствие: если вы выбираете модель для продукта или проекта, глобальный рейтинг Arena — плохой советчик. Особенно если ваши пользователи говорят не по-английски. Модель, которая блестяще работает на английских промптах, может оказаться посредственной на русском, немецком или японском.
Второй вывод: конкуренция на рынке LLM гораздо плотнее, чем кажется из лидербордов. Разница между моделями топ-50 статистически незначима — и это не баг системы оценки, а отражение реального положения дел. Пользователи по-настоящему расходятся в предпочтениях только тогда, когда разговор заходит о конкретных языках и конкретных типах задач.
Третий вывод касается разработчиков и компаний, которые выбирают «дефолтную» модель для своих продуктов. Вместо того чтобы брать первую строчку из Arena, стоит провести A/B-тесты на собственной аудитории. Портфолио-подход подсказывает стратегию: не искать одну лучшую модель, а маршрутизировать запросы к разным моделям в зависимости от языка и типа задачи. Это может дать заметный прирост в качестве обслуживания без увеличения затрат.
Четвёртый вывод менее очевиден, но не менее важен: если вы разрабатываете модель, не оптимизируйтесь под глобальный рейтинг. Победа в Arena на 10 очков Elo ничего не значит, если она достигнута за счёт ухудшения работы на языках, которые представлены в датасете слабо. Более разумная стратегия — выбирать целевую аудиторию и доминировать в ней, чем быть «немного лучше среднего» для всех.
Конкретные примеры из данных
Чтобы абстрактные цифры стали осязаемыми, приведём несколько примеров из реальных данных Arena. Англоязычные пользователи, решающие задачи по программированию, и немецкоязычные пользователи, пишущие творческие тексты, — это две совершенно разные «электоральные группы». Модели, которые доминируют в одной группе, могут не входить даже в топ-10 в другой. При этом внутри каждой группы голоса удивительно согласованы — пользователи, говорящие на одном языке и решающие один тип задач, выстраивают модели в похожем порядке.
Ещё один показательный кейс: топ-5 моделей в глобальном рейтинге (Gemini-2.5P, Gemini-2.5P3, Grok-4, o3, Gemini-2.5-P5) при переходе к отдельным языковым семьям смещаются на 5–14 позиций. Это не случайный шум — это систематическое расхождение, которое глобальное усреднение маскирует. Модель, «лучшая в мире» по версии Arena, может оказаться посредственной для двух третей языков планеты.
Связь с парадоксом Симпсона
Авторы проводят параллель с хорошо известным в статистике парадоксом Симпсона, когда тренд, наблюдаемый в нескольких группах, исчезает или даже обращается вспять при объединении этих групп. Аналогичный эффект возникает и с рейтингами LLM: внутри каждой языковой группы модели выстраиваются в чёткий и предсказуемый порядок, но при попытке «смешать» все группы в один рейтинг эта структура разрушается.
Это наблюдение имеет значение и за пределами оценки моделей. Авторы демонстрируют портфолио-подход на датасете COMPAS — системе оценки риска рецидивизма в уголовном правосудии. Там портфолио из четырёх моделей справедливой классификации покрывает 90% популяции с умеренной погрешностью, причём каждая модель «специализируется» на своей подгруппе. Такой подход помогает выявить слепые зоны данных, что может быть полезно для законодателей и регуляторов.
Ограничения исследования
Авторы честно признают несколько ограничений. Во-первых, данные Arena не содержат идентификаторов пользователей — невозможно отделить межличностную вариативность от внутриличностной (один и тот же человек мог голосовать по-разному в разных контекстах). Во-вторых, не все языковые семьи имеют полный набор попарных сравнений между всеми моделями, что вынуждает модель Bradley-Terry «додумывать» rankings там, где прямых сравнений нет. В-третьих, кластеризация голосов по языку и типу задачи — не единственный и, возможно, не оптимальный способ группировки. Авторы надеются, что будущие работы предложат более тонкие методы кластеризации.
Стоит также отметить, что исследование охватывает только платформу Arena, где пользователи сравнивают модели в свободном формате. Результаты бенчмарков с фиксированными тестами (MMLU, HumanEval) могут демонстрировать другую картину — хотя и там недавно появились работы, показывающие нестабильность результатов при небольших изменениях формата вопроса.
Часто задаваемые вопросы
Значит ли это, что Arena бесполезна?
Нет, Arena собирает ценные данные о предпочтениях. Проблема не в данных, а в способе их агрегации. Глобальный рейтинг усредняет настолько разные предпочтения, что теряет предсказательную силу. Но данные по отдельным языкам и задачам остаются крайне полезными.
Как тогда выбирать модель для русского языка?
Ищите рейтинги, специфичные для вашего языка и типа задач. На Arena есть фильтры по языку — используйте их. Если фильтров нет, проводите собственные тесты на промптах, типичных для вашего продукта. Глобальный рейтинг не даст вам ответа.
Что такое портфолио моделей на практике?
Это набор из нескольких моделей, каждая из которых хорошо работает для своей аудитории. Вместо одной модели для всех вы маршрутизируете запросы: английские промпты идут к одной модели, русские — к другой, код — к третьей. Исследование показывает, что 4–6 моделей достаточно, чтобы покрыть подавляющее большинство пользователей.
Итог
Глобальные лидерборды языковых моделей создают иллюзию определённости там, где её нет. Разница между первыми пятьюдесятью моделями — статистический шум, а реальные различия в предпочтениях скрыты на уровне языков и культур. Вместо поиска «лучшей модели мира» стоит искать лучшие модели для конкретного языка, конкретной задачи и конкретной аудитории. Портфолио из нескольких специализированных моделей — практичная и математически обоснованная альтернатива единому рейтингу, которая работает в пять раз лучше при сравнимых затратах.
Полный текст исследования доступен на arXiv:2605.06656.