QIMMA: почему арабские LLM-бенчмарки давали неверные результаты
Если вы следите за арабскими LLM, заметили: лидербордов стало больше, а понять, какая модель реально лучше, — сложнее. Цифры на разных платформах не сходятся, методологии оценки различаются, а некоторые бенчмарки, как выяснилось, содержат ошибки прямо в «правильных ответах».
Команда из TII (Technology Innovation Institute) вместе с исследователями с Hugging Face построила QIMMA — Quality-First Arabic LLM Leaderboard. Главная идея: прежде чем оценивать модели, нужно убедиться, что сами бенчмарки не мусор. Результаты оказались неожиданными.
Проблема: арабские бенчмарки — это кот Базилио
Арабский язык — один из самых сложных для NLP: 400 миллионов носителей, десятки диалектов, письменность справа налево, морфология, которую нельзя просто скопировать из английского. Исследователи из TII выделили три системные проблемы, которые портят оценку арабских LLM.
Перевод из английского — многие бенчмарки это переведённые с английского вопросы. То, что звучит естественно на английском, на арабском может оказаться неуклюжей конструкцией с культурным сдвигом. Модель, обученная на арабском корпусе, отвечает на вопрос, который никто в реальности так не сформулировал бы. Получается тест на «как хорошо модель понимает переведённый английский», а не на «как она владеет арабским».
Отсутствие проверки качества — даже бенчмарки, созданные на арабском, часто выходили без систематической верификации. Неправильные «золотые ответы», дубликаты, опечатки, проблемы с кодировкой — всё это тихо искажает результаты. Ошибка в одном сэмпле незаметна. Ошибка в 3% сэмплов полностью меняет рейтинг.
Невоспроизводимость — скрипты оценки и результаты по каждому сэмплу редко публикуются. Проверить чужой лидерборд почти невозможно. Вы доверяете цифрам, которые нельзя пересчитать. Это как если бы на выборах бюллетени были закрыты, а победителя объявляли по внутреннему подсчёту избиркома.
QIMMA: 52 000 сэмплов, 7 доменов, двойная проверка
Вместо того чтобы добавить ещё один лидерборд к существующим, команда QIMMA пошла от обратного: сначала проверили качество данных, потом оценили модели. В QIMMA вошли 109 подмножеств из 14 бенчмарков, охватывающих более 52 000 сэмплов в семи доменах.
Домены: культурные знания (ArabCulture, AraDiCE-Culture), STEM (ArabicMMLU, GAT, 3LM STEM), право (ArabLegalQA, MizanQA), медицина (MedArabiQ, MedAraBench), безопасность (AraTrust), поэзия и литература (FannOrFlop), и впервые для арабских лидербордов — программирование (3LM HumanEval+, 3LM MBPP+ с арабскими формулировками задач).
Ключевое отличие — 99% контента на родном арабском. Исключение сделано только для кода: задачи на программирование универсальны по языку, условие может быть на арабском, а решение — на Python.
Методология проверки: два этапа
Каждый сэмпл проходил двухэтапную проверку, прежде чем попасть в финальный набор.
Этап 1: автоматическая оценка двумя моделями. Qwen3-235B-A22B-Instruct и DeepSeek-V3-671B независимо оценивали каждый сэмпл по 10-балльной рубрике из 10 критериев. Сэмпл исключался, если хотя бы одна модель ставила ниже 7 из 10. Две разные модели выбраны намеренно: у них разный состав обучающих данных, поэтому их совместное решение устойчивее, чем одна. Согласны обе — сэмпл жив. Расходятся — отправляется на этап 2.
Этап 2: ревью носителями языка. Расхождения в автоматической оценке разбирали нативные арабские спикеры с культурной и диалектной экспертизой. Особенно важно это для задач, где «правильный» ответ может зависеть от региона: в арабском мире диалектологические различия принципиальны, и то, что верно для Марокко, может не работать для ОАЭ.
Что нашли: системные ошибки, не случайные опечатки
Проверка выявила не отдельные баги, а системные паттерны — закономерности в том, как бенчмарки изначально строились.
Самый показательный пример — ArabicMMLU. Из 14 163 сэмплов отсеяли 436 (3,1%). Это не мелочь: каждый тридцатый вопрос был битый. MizanQA потеряла 2,3%, PalmX — 0,8%. FannOrFlop (литература и поэзия) — 0,6%, несмотря на кажущуюся простоту разметки. В абсолютных числах это сотни некорректных вопросов, которые годами влияли на рейтинги арабских моделей.
Типы проблем распределились так:
Качество ответов — неправильные «золотые» индексы, фактические ошибки, пустые или сырые текстовые ответы вместо нормализованных. Модель выбирает ответ, который выглядит разумным, но бенчмарк считает его неправильным из-за ошибки в разметке.
Форматирование — битый или нечитаемый текст, орфографические и грамматические ошибки, дубликаты внутри одного бенчмарка. Дубликат может дважды засчитываться за один и тот же вопрос, завышая оценку модели, которая случайно запомнила ответ.
Культурная чувствительность — стереотипное усиление и монолитные обобщения о разнообразных сообществах, которые искажают представление о языке и культуре. Бенчмарк, который обучает модель стереотипам, — это проблема не только точности, но и безопасности.
Несоответствие протоколу — «золотые ответы» расходились с заявленным протоколом оценки. Бенчмарк говорит «оцениваем по F1», а фактический скрипт использует другую метрику.
Кодовые бенчмарки: 88% задач пришлось переписать
Кодовые бенчмарки оказались особенным случаем. Здесь команда не удаляла сэмплы, а переписывала условия задач на арабском. Решения и тесты (эталонный код и проверочные cases) остались нетронутыми — только формулировки. Результаты поражают: из 164 задач HumanEval+ переработано 145 (88%). Из 378 задач MBPP+ — 308 (81%). Только 19 задач HumanEval+ и 70 MBPP+ остались без изменений.
Типы правок: нормализация к современному стандартному арабскому (MSA), исправление неоднозначных формулировок, унификация математической терминологии, устранение сломанных triple-quoted strings, коррекция отступов и кодировки, уточнение диапазонов (включительно или нет). Представьте задачу, где сказано «напиши функцию для чисел от 1 до n» — а тесты ожидают, что 1 не входит в диапазон. Модель делает логичную вещь и получает wrong answer не за свой код, а за ошибку в условии.
Лидерборд: кто лидирует и почему размер — не всё
Топ-10 моделей по среднему баллу (апрель 2026):
Первое место — Qwen/Qwen3.5-397B-A17B-FP8 (68,06). Универсальная мультиязычная модель, лидирует по всем направлениям, особенно по коду (67,68 HumanEval+, 76,72 MBPP+). Второе место — Karnak от Applied Innovation Center (66,20), специализированная арабская модель, лидирует в STEM и правовых задачах. Третье — Jais-2-70B-Chat от Inception AI (65,81), лидирует по арабскому MMLU и культурным знаниям.
Важнее цифр — паттерн: арабские специализированные модели опережают мультиязычные того же размера на культурных и лингвистических задачах. При этом кодирование остаётся самым сложным доменом для арабских моделей — топовые результаты по HumanEval+ принадлежат мультиязычным моделям, потому что код — язык-агностик, и тут преимущество получают модели с большим общим покрытием.
Размер не гарантирует победу. AceGPT-v2-32B (61,14) уступает Karnak (66,20), несмотря на сопоставимый масштаб. Qwen2.5-32B обходит Llama-3.3-70B на ряде задач. Модель Qwen2.5-32B-Instruct набирает 93,10 на FannOrFlop — лучший результат вообще, при том что это 32 миллиарда параметров против 397 у лидера. Меньшие специализированные модели показывают более высокие баллы на конкретных задачах — специализация побеждает масштаб на культурных и лингвистических бенчмарках.
Сравнение с другими платформами
QIMMA выделяется на фоне существующих арабских лидербордов пятью свойствами: открытый исходный код, преимущественно нативный арабский контент (99%), систематическая проверка качества, кодовые задачи и публичные логи инференса по каждому сэмплу. Другие платформы — OALL, BALSAM, AraGen, SILMA, ILMAAM, HELM Arabic — не предоставляют полного набора этих свойств. OALL не имеет проверки качества, BALSAM частично открыт и без кодовых задач, HELM Arabic использует смешанный контент без верификации.
Почему это важно для индустрии
QIMMA показывает проблему, которая выходит за рамки арабского языка. Методологическая ошибка — строить лидерборд на непроверенных данных — характерна для всего рынка LLM-бенчмарков. Если вы возьмёте любой популярный бенчмарк и проверите 3% случайных сэмплов, с высокой вероятностью найдёте ошибки в разметке.
Последствия некорректных бенчмарков выходят за академию. Компании принимают решения о покупке модели на основе лидербордов. Исследователи выбирают базовые модели по опубликованным метрикам. Если данные не проверены, эти решения строятся на песке. Решением может быть только публичность: открытые логи инференса, верификация сэмплов, воспроизводимые скрипты.
Часто задаваемые вопросы
Почему 3% — это много для бенчмарка?
3% ошибок в бенчмарке на 14 000 вопросов — это 436 неверных «правильных ответов». Если модель выбирает правильный, по мнению бенчмарка, ответ, а он на самом деле неправильный — оценка искажается. При тысячах моделей и десятках тысяч сэмплов систематическая ошибка в 3% на одном бенчмарке может полностью изменить рейтинг. Представьте, что на выборах 3% бюллетеней оказываются испорчены — это не «незначительная погрешность», это другой победитель.
Почему арабские модели лидируют на арабских задачах?
Специализированные арабские модели (Jais, Karnak, AIC-1) обучены на арабских корпусах с большим покрытием диалектов и культурного контекста. Мультиязычные модели «знают» арабский хуже, потому что он конкурирует с десятками других языков за позиции в эмбеддингах. Это как разница между врачом-универсалом и хирургом-кардиологом: оба хороши, но специализация даёт преимущество в конкретной области.
Что такое код на арабском?
QIMMA — первый арабский лидерборд с кодовыми бенчмарками. Задачи HumanEval+ и MBPP+ переформулированы на арабском: условие задачи, примеры, ограничения — всё на арабском языке. Модель получает арабскую задачу и должна сгенерировать рабочий код на Python или другом языке. Это ближе к реальному use-case: арабский разработчик ставит задачу ИИ-ассистенту на родном языке.
Можно ли применять этот подход к другим языкам?
Архитектура QIMMA полностью воспроизводима. Двухэтапная валидация (автоматическая + human review) — это не специфика арабского, а общий методологический принцип. Для любого низкоресурсного языка или специализированной предметной области (медицина, право) этот подход был бы ценен. Главное — найти нативных спикеров для этапа 2, и это основная сложность.
Итог
QIMMA — это не просто ещё один лидерборд. Это демонстрация того, что методологическая строгость важнее покрытия. Проверка 14 бенчмарков перед оценкой моделей выявила, что до 3% данных в широко используемых бенчмарках некорректны. Лидерборд, который слепо складывает такие данные, даёт ложные результаты.
Для практического применения: если вы выбираете арабскую LLM для культурологических или лингвистических задач — обратите внимание на Karnak и Jais. Если нужен код — Qwen3.5-397B вне конкуренции. И в любом случае стоит сверяться с QIMMA напрямую: https://huggingface.co/spaces/qimma/leaderboard, где данные обновляются.