Оценка ИИ стоит дороже обучения: почему evals стали новым bottleneck

Один прогон PaperBench стоит $9 500, а полный sweep по девяти бенчмаркам и девяти моделям в Holistic Agent Leaderboard — $40 000. Ещё недавно обучение моделей съедало весь бюджет, а оценка казалась формальностью. Теперь evals стали дороже training — и это меняет правила игры для академических лабораторий, аудиторов и журналистов.

Что происходит: evals стали новым compute bottleneck

В апреле 2026 года EvalEval Coalition опубликовала на Hugging Face детальный разбор стоимости оценки ИИ. Вывод неутешительный: стоимость бенчмарков выросла настолько, что независимая проверка frontier-моделей оказывается за пределами бюджета большинства исследовательских групп. Если раньше $100 млн на обучение делали $10 тыс. на eval незаметной строкой в смете, то теперь эта строка превратилась в десятки и сотни тысяч долларов — и при этом результаты остаются шумными.

Главный сдвиг произошёл в двух областях: агентные бенчмарки и научный ML. В обоих случаях единица оценки перестала быть статическим предсказанием и превратилась в многоходовой процесс — от многошагового агента до полноценного обучения модели с нуля.

Статические бенчмарки: проблема уже началась раньше

Когда Стэнфордский CRFM выпустил HELM в 2022 году, стоимость оценки одной модели колебалась от $85 для небольших OpenAI-моделей до $10 926 для AI21 J1-Jumbo и 4 200 GPU-часов для открытых моделей вроде BLOOM. Весь HELM-свип по 30 моделям и 42 сценариям стоил примерно $100 000. Учёные из IBM Research отмечали, что прогон Granite-13B через HELM может съесть до 1 000 GPU-часов.

Perlitz et al. (2023) обратили внимание на ещё один эффект: разработчики платят за оценку многократно в ходе обучения. Pythia выпустила 2 464 чекпоинта, и прогон LM Evaluation Harness по всем ним может стоить дороже самого pretraining. Для маленьких моделей eval становится доминирующей статьей расходов на весь цикл разработки.

Но у статических бенчмарков был запас прочности: их можно сжимать. Flash-HELM показал, что 100–200-кратное сокращение вычислений сохраняет ранжирование моделей. tinyBenchmarks сжал MMLU с 14 000 до 100 вопросов с ошибкой около 2 %. Anchor Points доказали, что 1–30 примеров достаточно для ранжирования 87 пар модель/промпт на GLUE. Статические тесты позволяли экономить, потому что различия между моделями концентрировались в узком подмножестве заданий.

Агентные бенчмарки: цена растёт на порядки

С переходом к агентам картина изменилась кардинально. Holistic Agent Leaderboard потратил $40 000 на 21 730 rollout'ов по девяти моделям и девяти бенчмаркам. К апрелю 2026 года число rollout'ов выросло до 26 597. Независимое воспроизведение Ndzomga дало сопоставимую цифру — $46 000.

Разброс цен внутри одного бенчмарка достигает четырёх порядков. Claude Opus 4.1 берёт $15 за миллион входных токенов и $75 за миллион выходных, тогда как Gemini 2.0 Flash — $0,10 и $0,40 соответственно. Но дело не только в тарифах API: агентные бенчмарки оценивают не модель, а произведение модель × scaffold × бюджет токенов. Малое изменение в scaffold'е может удешевить или удорожить прогон в 10 раз.

При этом дополнительные зататы не гарантируют лучший результат. На Online Mind2Web Browser-Use с Claude Sonnet 4 стоил $1 577 при точности 40 %, тогда как SeeAct с GPT-5 Medium дал 42 % за $171 — разница в 9× при сопоставимом качестве. На GAIA один агент набрал 28,5 % за $2 828, а другой — 57,6 % за $1 686. CLEAR обнаружил, что «оптимальные по точности конфигурации стоят в 4,4–10,8 раза дороже Pareto-эффективных альтернатив».

Инструменты сжатия, которые работали для статических тестов, здесь дают скромный эффект. Фильтр mid-difficulty Ndzomga сокращает стоимость в 2–3,5 раза, но это далеко от 100–200-кратного выигрыша Flash-HELM. Когда каждый пункт — это многоходовой rollout со своей дисперсией, длинная траектория становится неустранимым источником расходов.

Training-in-the-loop: eval дороже обучения

В научном ML ситуация ещё радикальнее. The Well — сборник из 16 научных датасетов объёмом 15 ТБ — требует для оценки одной новой архитектуры 960 H100-часов (примерно $2 400), а полный sweep по четырём архитектурам — 3 840 H100-часов ($9 600). Обучение одного neural operator занимает 12 часов на H100, а оценка его по бенчмарку требует 80 таких прогонов. Здесь eval превышает training на два порядка — классическая deep-learning-модель «обучение дороже всего» перевёрнута.

METR's RE-Bench даёт каждому из семи research engineering окружений 8 часов на 1–6 H100, то есть один проход стоит 56–336 H100-часов. MLE-Bench от OpenAI запускает агентов на 75 соревнованиях Kaggle по 24 часа на A10 — только GPU-часть обходится в $2 700, а с API-расходами o1-preview один seed выходит примерно в $5 500. PaperBench требует воспроизвести 20 статей ICML 2024 с нуля: $400 API на rollout × 20 = $8 000, плюс $1 320 на оценку судьёй o3-mini. Полный прогон — около $9 500, а вариант без исполнения кода (Code-Dev) снижает цену примерно до $4 000.

Надёжность множит стоимость

Все цифры выше — для одиночных прогонов. Когда требуется статистическая надёжность, цена растёт линейно. Yao et al. показали, что на τ-bench точность падает с 60 % за один прогон до 25 % при проверке на восьми запусках. HAL обнаружил, что «do-nothing» агент проходит 38 % задач τ-bench airline в оригинальной конструкции. На SciCode и CORE-Bench агенты почти никогда не завершают прогон без ошибки tool-calling, а на AssistantBench и CORE-Bench около 40 % прогонов дают environmental errors.

Статистически значимая оценка с k = 8 reruns превращает $40 000 HAL в $320 000, а $9 500 PaperBench — в $75 000+. The Well с multi-seed протоколом уходит от 960 H100-часов до нескольких тысяч. HAL приостановил добавление новых моделей, чтобы сосредоточиться на надёжности: полевые цифры слишком шумные, а уменьшить шум — дорого.

Что это значит для индустрии

Академические группы, институты безопасности ИИ и журналисты теперь упираются в бюджетный потолок раньше, чем в технический. Один прогон GAIA может превысить годовой бюджет на командировки аспиранта. Трёхseed-сравнение шести моделей на PaperBench выходит за $150 000 — сумму, которую мало кто вне frontier-лабораторий может выделить на оценку.

Это создаёт новый «compute divide». Ahmed, Wahed и Thompson (Science 2023) документировали, что индустриальные модели в 2021 году были в 29 раз крупнее академических, и около 70 % PhD в ИИ уходили в индустрию. Тогда речь шла об обучении. Теперь eval присоединяется к списку ресурсов, которые доступны только крупным игрокам. Если только frontier-лаборатории могут позволить статистически надёжные прогоны на дорогих агентных и научных бенчмарках, социальный процесс оценки ИИ концентрируется внутри тех же организаций, которые эти системы создают. Внешняя валидация становится частичной или вовсе отсутствует.

Лидерборды, которые публикуют сырые точности без учёта стоимости, формально поощряют расточительность. HAL обнаружил, что повышение reasoning effort в большинстве прогонов снижает точность: дополнительный inference compute не улучшает даже тот показатель, который должен оптимизировать. Pareto-границы, которые ранжируют точность против цены, решают эту проблему, но большинство лидербордов их не используют.

Как снижать стоимость eval

Первый и самый дешёвый рычаг — стандартизация и обмен данными. Сегодня поле платит розничную цену за каждый прогон, хотя большинство из них покрывают пересекающиеся модели на пересекающихся бенчмарках. Если $9 500 PaperBench-прогон экспортирует полный grading trace в общем формате, следующая группа может потратить бюджет на новые возмущения вместо повторения базовой линии. EvalEval Coalition запустила проект Every Eval Ever — унифицированный формат для логов оценок с конвертерами для HELM, lm-eval-harness и Inspect AI. Даже 2-кратное повторное использование высокобюджетных бенчмарков вернёт в экосистему больше ресурсов, чем все техники сжатия вместе взятые.

Второй рычаг — сжатие, где оно возможно. Для статических тестов работают Flash-HELM, tinyBenchmarks и Anchor Points. Для агентных бенчмарков помогает mid-difficulty filtering и Pareto-front лидерборды. Для training-in-the-loop бенчмарков общих методов сжатия нет: табличная предвычисление и жёсткие бюджетные капы снижают цену только за счёт сужения того, что бенчмарк измеряет.

Третий рычаг — признание, что reliability, а не capability, становится главным ограничением. Поле до сих пор говорит так, будто способность модели — главный узкий участок, но eval указывает на надёжность. Учреждения, занимающиеся governance, должны измерять разрыв между single-run accuracy и pass^k consistency, но этот разрыв стоит дороже всего измерять.

Часто задаваемые вопросы

Почему агентные бенчмарки такие дорогие?

Каждый пункт агентного бенчмарка — это многоходовый диалог с API, а не одно предсказание. Стоимость зависит от модели, scaffold'а и бюджета токенов. Разброс между дешёвой и дорогой конфигурацией на одном бенчмарке достигает 33×.

Можно ли сжимать агентные evals так же, как статические?

Нет — не в той же степени. Статические бенчмарки сжимаются в 100–200× без потери ранжирования, потому что различия концентрируются в малом подмножестве заданий. Агентные тесты сжимаются максимум в 2–3,5×, потому что каждый пункт — это длинная траектория со своей дисперсией, и пропуск заданий искажает картину сильнее.

Как eval стал дороже training?

В научном ML бенчмарки вроде The Well требуют обучения модели с нуля на каждом датасете из набора. Оценка одной архитектуры стоит 960 H100-часов, тогда как обучение одного оператора — 12 часов. Eval превышает training на два порядка, переворачивая классическую модель deep learning.

Итог

Экономика оценки ИИ изменилась. Статические бенчмарки поддаются сжатию, агентные — лишь частично, а training-in-the-loop evals не имеют общих методов удешевления. Надёжность множит стоимость каждого протокола. В результате eval стал самостоятельным compute-узлом со своими бюджетами, статистическими методами и режимами отказа — и тем, кто может его оплатить, достаётся право писать лидерборды.

Если вы разрабатываете модели или выбираете бенчмарки для внутренних тестов, начните с Pareto-границы точность/цена вместо сырых accuracy. А если запускаете дорогую оценку — поделитесь логами в открытом формате. Это самый высокорентабельный способ снизить цену eval для всего поля.

← Все записи
← Все записи