Миф об ИИ-экспертах: почему LLM не дотягивают до уровня человека
Миф об ИИ-экспертах: почему LLM не дотягивают до уровня человека
OpenAI называет ChatGPT «доктором философии в любой области». Anthropic заявляет, что современные LLM теоретически способны заменить 94% работы в IT и математике. А инвестиции в искусственный интеллект уже превысили 660 миллиардов долларов только за 2026 год. Но что, если вся эта аргументация строится на бенчмарках, которые измеряют не то, что нужно, и не так, как нужно?
Новое исследование, опубликованное на arXiv, ставит под сомнение саму методологию оценки языковых моделей. Авторы не просто показали, что ChatGPT Codex 5.2 проигрывает человеку в сложной статистической задаче — они продемонстрировали, что модель способна выдавать ошибки настолько катастрофические, что их масштаб трудно осмыслить. Стандартное отклонение RMSE у LLM составило 58 миллиардов. У людей — 0,029.
Что такое парадокс бенчмарков
Большинство популярных тестов для LLM — MMLU, HumanEval, GPQA, GDPVal — измеряют долю правильных ответов на стандартизированных датасетах. Модель отвечает на вопрос, и если ответ совпадает с ключом, засчитывается балл. Эта логика кажется разумной до тех пор, пока не задать два простых вопроса.
Первый: а не встречалась ли задача в обучающих данных? Benchmark contamination — когда тестовые примеры и правильные ответы оказываются в корпусе обучения — давно известна, но систематически недооценивается. Это как оценивать знания студента по тому же билету, который он уже разбирал на консультации. Второй вопрос ещё важнее: что происходит, когда модель ошибается? Существующие бенчмарки фиксируют факт ошибки, но не её масштаб. Если человек и LLM оба не угадали ответ, это ещё не значит, что их ошибки равнозначны. Человек может быть немного неправ. Модель может выдать результат, отклоняющийся от истины на сто миллиардов стандартных отклонений.
Эксперимент: соревнование с PhD-статистиками
Исследователи выбрали задачу, где сравнение с людьми возможно напрямую. В 2016 году на конференции по причинно-следственному выводу проходил конкурс по анализу наблюдательных данных. Участники — команды докторов наук в статистике — писали скрипты для обработки 7700 синтетических датасетов. Критически важно: код участников никогда не публиковался, а сами данные были сгенерированы организаторами. Это делает задачу практически невозможной для контаминации обучающих данных — в отличие от большинства современных бенчмарков, где тестовые наборы рано или поздно утекают в интернет и попадают в обучающую выборку следующей версии модели.
Авторы исследования поручили ChatGPT Codex 5.2 — той самой модели, которую OpenAI позиционирует как «PhD-уровень» — написать 20 независимых скриптов для того же конкурса. Каждый скрипт генерировался с нуля по одному и тому же промпту, который получали человеческие участники. Затем результаты сравнивались по трём метрикам: точности оценки эффекта, смещению и качеству доверительных интервалов.
Из 20 скриптов три — 15% — не запустились из-за ошибок в коде. Из оставшихся семнадцати пять продемонстрировали катастрофические сбои. Один скрипт выдал RMSE в 219 миллиардов стандартных отклонений. Для сравнения: эффект в 0,8 стандартных отклонений считается большим в социальных науках. Ошибка в 219 миллиардов — это не просто неточность, это полный крах логики. Другой скрипт выдал RMSE «всего» 111 миллиардов. Третий — 2573. При этом люди, решавшие ту же задачу, показали RMSE в диапазоне от 0,5 до 2,5.
Цифры, которые меняют картину
Средняя точность у LLM оказалась хуже, чем у большинства человеческих участников. Но среднее — не главная проблема. Главная проблема — вариативность. Стандартное отклонение RMSE у человеческих экспертов составило 0,029. У ChatGPT Codex 5.2 — 58 171 865 734. Это разница в два триллиона раз. Даже после удаления двух худших выбросов стандартное отклонение оставалось на уровне 709, что в 24 тысячи раз превышает человеческий показатель.
Смещение оценок рассказывает ту же историю. У людей стандартное отклонение standardized bias — 0,012. У модели — 791 722 200. Доверительные интервалы у LLM систематически занижены: покрытие истинного значения далеко от идеальных 95%, а длина интервалов у некоторых скриптов превышала 75 миллиардов стандартных отклонений. При этом один скрипт случайно попал в 95%-ное покрытие — но только потому, что его интервал был настолько широк, что охватил всё возможное пространство значений. Это как стрелять из пушки по воробьям и считать попаданием любую точку на поле боя.
Интересный паттерн проявился в выборе методов. ChatGPT Codex 5.2 использовал два подхода: причинные леса через готовый R-пакет grf и реализацию IPTW с нуля. Когда модель опиралась на удобный пакет, результаты были сопоставимы со средними человеческими показателями. Когда же ей приходилось реализовывать сложный статистический метод самостоятельно, качество рухало. Это говорит не о том, что LLM умен, а о том, что готовые инструменты хороши — и это разные вещи. Модель умеет вызывать функции, но не понимает математику, которая за ними стоит.
Почему вариативность важнее среднего
Современная парадигма оценки LLM сосредоточена на средней точности. Модель, которая в среднем отвечает правильно на 75% вопросов, считается «доктором философии». Но в высокостейковых контекстах — медицина, право, инженерия, научный анализ — среднее значение мало что говорит о пригодности к работе. Один катастрофически неправильный диагноз перекрывает девяносто девять удачных. Один ошибочный расчёт несущей балки сводит на нет тысячи корректных.
Человеческий эксперт может ошибаться, но его ошибки предсказуемы и ограничены. Доктор не назначит лекарство в дозировке, отличающейся от нормы в миллиард раз. Инженер не спроектирует мост, выдерживающий минус сто тонн. Статистик не выдаст доверительный интервал шириной в 75 миллиардов. Эти ограничения встроены в человеческое мышление — мы обладаем здравым смыслом, который тормозит абсурдные выводы. У LLM такого тормоза нет.
Модель, выдавшая RMSE в 219 миллиардов, не осознаёт абсурдности результата. Она не останавливается, не перепроверяет, не просит уточнить условия. Она просто выдаёт число. И если этот скрипт попадает в производственный конвейер — например, в систему анализа клинических испытаний или финансового риск-менеджмента — последствия могут быть разрушительными. Причём проверяющий человек может и не заметить ошибку: код компилируется, выдаёт результат, оформлен профессионально. Проблема обнаружится только когда решение, основанное на этом результате, приведёт к реальному ущербу.
Исследование подчёркивает ещё один важный аспект: ChatGPT Codex 5.2 никогда не попытался реализовать BART — метод, который десять лет подряд оставался одним из лучших для этой задачи. Вместо этого модель сосредоточилась на IPTW и причинных лесах. Это не случайность, а систематический паттерн: LLM предпочитают методы, которые часто упоминаются в обучающих данных, даже если они неоптимальны для конкретной задачи. Это похоже на студента, который выучил три главы учебника и упорно применяет их везде, не подозревая о существовании четвёртой.
Реальные провалы, о которых мы уже знаем
Исследователи напоминают, что катастрофические ошибки LLM — не гипотетический сценарий. В 2024 году сгенерированный ИИ код вызвал 13-часовой сбой в AWS. Юридическая фирма подала в суд документы с выдуманными прецедентами, которые модель придумала сама. Академические публикации всё чаще содержат галлюцинированные цитаты — и рецензенты не всегда их замечают.
Во всех этих случаях проблема была одна: человек, проверявший вывод модели, не распознал ошибку. Это подрывает распространённый контраргумент в пользу LLM — мол, человек всё равно проверит. Но если модель выдаёт результат, который выглядит убедительно и оформлен профессионально, проверка становится формальностью. Особенно когда речь идёт о специализированных областях, где у проверяющего нет экспертизы на уровне автора задачи.
Авторы исследования прямо адресуют это возражение. Они отмечают, что степень, в которой люди могут надёжно выявлять галлюцинации LLM, остаётся открытым вопросом. Если эксперт не в состоянии отличить правильный BART от неправильного IPTW на первый взгляд — а именно так работает рецензирование в условиях нехватки времени — то «человек в контуре» превращается в иллюзию безопасности. Иллюзия, которая стоит миллиарды.
Часто задаваемые вопросы
Может ли более сложный промпт исправить проблему?
Скорее всего, нет — или, по крайней мере, не сам по себе. Создание промпта, который заставит модель выдавать стабильно качественный код для сложной статистической задачи, потребует глубокой предметной экспертизы. Но тогда заслуга принадлежит не модели, а человеку, который написал промпт. Исследование показало, что люди без дополнительного промпт-инжиниринга справлялись стабильнее.
Значит ли это, что LLM бесполезны для программирования?
Нет. Модель хорошо справилась, когда использовала готовый R-пакет grf — простой и хорошо документированный инструмент. LLM эффективны как ускорители рутинных задач, где есть проверенные шаблоны и готовые библиотеки. Проблема возникает, когда от них требуется оригинальное мышление, реализация сложных методов с нуля или работа в условиях неопределённости.
Почему бенчмарки не ловят такие ошибки?
Потому что они измеряют долю правильных ответов, а не величину ошибок и их вариативность. Если модель на тесте из ста вопросов ответила правильно на семьдесят пять, это выглядит хорошо. Но если оставшиеся двадцать пять ответов содержат ошибки в миллиарды раз превышающие допустимые пределы, такая модель непригодна для реальной работы. Текущие бенчмарки этот аспект полностью игнорируют.
Итог
Исследование не утверждает, что LLM бесполезны. Оно утверждает, что оценка их возможностей искажена. Когда OpenAI заявляет, что ChatGPT работает на уровне PhD-эксперта в 75% случаев, это создаёт ложное впечатление надёжности. Настоящий эксперт не просто часто прав — он предсказуем, его ошибки ограничены, и он способен распознать собственное незнание.
LLM пока не обладают ни одним из этих качеств. И пока методология оценки не начнёт измерять вариативность, масштаб ошибок и поведение в высокостейковых контекстах, разговоры о замене человеческой экспертизы останутся преждевременными. Технология мощная, но мощь не равноценна надёжности — и это различие стоит 660 миллиардов долларов в год.
Для практиков вывод простой: использовать LLM как ускоритель, а не как замену. Доверять им рутину, где ошибка очевидна и легко исправима. Но не делегировать критические решения — особенно там, где последствия ошибки измеряются не процентами, а человеческими жизнями, репутацией или инфраструктурой. Пока бенчмарки не начнут измерять то, что действительно важно, маркетинговые заявления о «PhD-уровне» останутся именно маркетингом.