Test-time compute: путь к AGI или новый хайп?

Test-time compute: путь к AGI или новый хайп?

Эпоха простого увеличения моделей подходит к концу. GPT-5 не анонсировали, Claude 4 остаётся слухом, а вся индустрия переключилась на test-time compute — вычисления во время инференса. Идея простая: вместо того чтобы делать модель больше, заставить её думать дольше. O3 от OpenAI решает задачи математиков-олимпиадников, DeepSeek R1 показывает, как обучать reasoning с помощью чистого reinforcement learning. Но за этим хайпом скрываются неудобные вопросы: действительно ли модели рассуждают, или они просто натренированы на конкретные тесты? И если benchmarks можно обмануть, насколько близко мы к AGI?

Что такое test-time compute и почему это важно

Классический LLM работает по принципу System 1 из книги Даниэля Канемана «Thinking, Fast and Slow» — быстрое, автоматическое мышление. Получил вопрос, сразу ответил. Это эффективно для «2 + 2 = ?», но беспомощно перед сложной задачей, требующей планирования. Test-time compute добавляет System 2 — медленное, логическое мышление. Модель генерирует цепочку рассуждений (chain-of-thought) перед ответом, проверяет промежуточные шаги, может вернуться и исправить ошибку.

Ключевой инсайт в том, что compute во время инференса можно масштабировать независимо от размера модели. Увеличение параметров требует дорогого переобучения и нового железа. Увеличение времени размышления требует только большего бюджета токенов на запрос. Для многих задач это оказывается эффективнее линейного роста параметров. Экономика ИИ меняется: вместо гонки за триллионными моделями можно взять компактную сеть и дать ей время подумать.

Но есть и обратная сторона. Если модель «думает» часами или днями, стоимость одного запроса взлетает до тысяч долларов. O3 в высококомпьютном режиме тратит сотни тысяч токенов на одну задачу. Это делает технологию впечатляющей в демонстрации, но непрактичной для большинства реальных приложений.

Как O3 и DeepSeek R1 учатся рассуждать

Когда O1 впервые показали, многие предполагали, что OpenAI просто соединила несколько вызовов GPT-4o в цепочку, где каждый следующий улучшает ответ предыдущего. Это было бы хаком. На самом деле reasoning models — это отдельно обученные модели, которые всегда выводят рассуждение перед ответом. Это не prompt-инжиниринг, а архитектурное решение, заложенное на этапе обучения.

DeepSeek R1 стал первой крупной моделью, которая раскрыла, как это работает изнутри. Их подход основан на GRPO — Group Relative Policy Optimization, технике reinforcement learning, которая не требует сбора размеченных датасетов. Вместо этого модель сама генерирует множество вариантов ответа, и те, которые содержат правильную цепочку рассуждений и верный результат, получают награду. Повторяя этот процесс миллионы раз, модель внутренне развивает собственные стратегии reasoning.

Исследователи DeepSeek описывают «момент озарения» (aha moment), когда модель после длительного обучения научилась возвращаться к предыдущим шагам и давать себе больше времени на размышление. Чем дольше тренировали R1-Zero, тем длиннее становились его ответы — модель сама научилась думать дольше. Это красота reinforcement learning: вместо того чтобы явно учить модель рассуждать, даёшь правильные стимулы, и она изобретает собственные методы.

Однако чистый RL дал нечитаемые результаты — цепочки рассуждений содержали смешанные языки и были плохо интерпретируемы. Финальная R1 прошла через многофазный pipeline: cold-start с небольшим набором размеченных данных, затем RL для reasoning, затем SFT для улучшения читаемости, и ещё один раунд RL для выравнивания. Это компромисс между автономностью и качеством.

Почему benchmarks могут врать

O3 поразил индустрию результатами на ARC-AGI — бенчмарке, который должен измерять обобщённый интеллект через незнакомые головоломки. В высококомпьютном режиме модель достигла почти 88% точности. Но позже выяснилось, что OpenAI тренировала O3 специально для этого теста. ARC-AGI оказался semi-private: вопросы были частично доступны через API, что создало риск data leakage. На сайте бенчмарка прямо указано, что O3 был fine-tuned для теста — деталь, которую не афишировали во время анонса.

Та же история с Frontier Math Benchmark — набором неопубликованных математических задач, которые занимают у профессиональных математиков часы. O3 набрал 25,5% точности против предыдущего state-of-the-art в 2%. Впечатляюще, но потом стало известно, что OpenAI финансировала создание этого бенчмарка и имела доступ к существенной части задач и решений. Когда модель обучается на том, что потом проверяет, это не измерение интеллекта — это подготовка к экзамену.

Проблема глубже, чем кажется. Почти для любого бенчмарка можно предположить, что какая-то информация о нём есть в интернете, а значит, в обучающих данных LLM. Модель могла видеть похожие задачи, обсуждения решений, даже сами ответы. Настоящий AGI по определению Франсуа Шолле — система, способная эффективно приобретать новые навыки вне обучающих данных. Если O3 нужен fine-tuning под конкретный тест, это узкая ИИ, а не общий интеллект.

Какие benchmarks заслуживают доверия

Существующие тесты достигают насыщения, и сообщество ищет альтернативы. GAIA benchmark требует от агента использовать инструменты — веб-поиск, калькуляторы, базы данных — для решения задач, которые невозможно запомнить из обучающих данных. GPQA предлагает сложные научные вопросы, с которыми PhD не справляются за 30 минут даже с неограниченным доступом к компьютеру. Эти тесты сложнее «обучить зубрёжкой», потому что требуют реального поиска и синтеза информации.

Но и здесь есть ловушка. Если провайдеры моделей не раскрывают, что именно они делали перед оценкой — fine-tuning, prompt engineering, доступ к тестовым данным — benchmarks превращаются в маркетинговый инструмент, а не в научный измеритель. Прозрачность становится важнее самих цифр. DeepSeek, публикуя методологию R1, сделал для индустрии больше, чем многие западные компании: дал сообществу возможность проверить, воспроизвести и улучшить.

Границы reasoning models

Несмотря на впечатляющие результаты в математике и коде, reasoning models имеют слепые зоны. OpenAI признавала, что в творческом письме человеческие предпочтения между GPT-4o и O1 не отличались. Chain-of-thought помогает решать логические задачи, но не очевидно, что он улучшает креативность, юмор или эмоциональную глубину. Если вы пишете роман или сценарий, дополнительные тысячи токенов «размышлений» не дают очевидного выигрыша.

Ещё один барьер — стоимость. Reasoning tokens оплачиваются по той же цене, что и обычные, а их количество в десятки раз больше. O1 и O3 через API стоят дорого для большинства приложений. DeepSeek R1 дешевле, но даже он требует значительных ресурсов. Пока неясно, кто будет платить за «думающий» ИИ в продакшене, кроме исследовательских лабораторий и энтузиастов.

Дистилляция: малые модели учатся у больших

Одно из самых практически значимых открытий DeepSeek — возможность дистилляции reasoning. Completions от R1, содержащие развёрнутые цепочки рассуждений, можно собрать в обучающий датасет и использовать для supervised fine-tuning меньших моделей. Исследователи показали, что даже компактные модели вроде Qwen или Llama, обученные на данных R1, превосходят GPT-4o и Claude 3.5 Sonnet на бенчмарках по математике и программированию.

Это меняет правила игры для локального ИИ. Раньше reasoning считался прерогативой гигантских моделей, доступных только через API крупных провайдеров. Теперь 7B или 14B модель, запущенная на consumer GPU, может демонстрировать способности к логическому выводу, которые раньше требовали сотен миллиардов параметров. Для разработчиков это означает, что можно строить приложения с глубоким reasoning без зависимости от облачных API и без риска утечки данных.

Важное ограничение: дистиллированные модели копируют стратегии рассуждений, но не развивают новые. Они хороши в том, что видели в обучающих данных, но не способны изобрести новый подход к незнакомой задаче. Это разница между учеником, который выучил решения задачника, и исследователем, который открывает новую математику. Для большинства практических задач первого достаточно, но AGI требует второго.

Почему это важно для индустрии прямо сейчас

Test-time compute перекраивает экономику ИИ-инфраструктуры. Если раньше основные инвестиции шли в pre-training — дата-центры для обучения моделей раз в несколько месяцев — теперь compute требуется постоянно, на каждый запрос. NVIDIA, Microsoft, Meta и OpenAI вкладывают десятки миллиардов в дата-центры именно потому, что inference-time scaling обещает непрерывный спрос на вычисления. Это выгодно поставщикам железа, но создаёт зависимость от облачной инфраструктуры.

Для бизнеса выбор между «большой моделью + быстрый inference» и «компактной моделью + длинное размышление» становится стратегическим. Первое подходит для чат-ботов, поиска, генерации контента — задач, где скорость важнее глубины. Второе — для юридического анализа, научных вычислений, сложной отладки кода, где ошибка стоит дороже, чем задержка в несколько минут.

Richard Sutton в своём эссе «The Bitter Lesson» утверждал, что в истории ИИ выигрывало всегда масштабирование compute, а не изобретение более умных алгоритмов. Test-time compute — прямое продолжение этого тезиса: вместо того чтобы искать элегантную архитектуру, мы просто даём модели больше времени на перебор вариантов. Это не элегантно, но работает. Вопрос в том, сколько ещё compute мы можем себе позволить, прежде чем столкнёмся с физическими и экономическими пределами.

Часто задаваемые вопросы

Test-time compute заменит большие модели?

Нет, это дополняющие стратегии. Test-time compute эффективен для задач, требующих глубокого reasoning — математика, код, научный анализ. Для простых запросов он избыточен и дорог. Оптимальный подход — адаптивное распределение: лёгкие задачи решает быстрая модель, сложные отправляются «думающей».

DeepSeek R1 действительно обучался без человеческих разметок?

R1-Zero — да, чистый RL с GRPO без SFT. Но финальная R1 прошла через многофазный pipeline с cold-start SFT для читаемости и дополнительными раундами RL для выравнивания. «Без разметок» относится к основному механизму reasoning, но не ко всему процессу обучения.

Почему OpenAI не раскрывает детали O3?

Компания утратила привычку к академической прозрачности после GPT-2. Сейчас мотивация скорее коммерческая и конкурентная: чем меньше конкуренты знают о методологии, тем сложнее воспроизвести результаты. Но это подрывает доверие к заявленным benchmarks.

Итог

Test-time compute — реальный прорыв, а не маркетинговая выдумка. Модели вроде O3 и DeepSeek R1 демонстрируют, что обучение reasoning через reinforcement learning работает и даёт измеримые улучшения в математике, коде и научных задачах. Но путь от «хорошо решает тесты» до AGI длиннее, чем кажется по заголовкам. Пока benchmarks позволяют fine-tuning под конкретные задачи и страдают от data leakage, они измеряют подготовку, а не интеллект. Настоящий прогресс потребует прозрачности, новых тестов вроде GAIA и GPQA, и честного признания границ. AGI не наступит завтра, но методология, которую открыли R1 и O3, — шаг в правильном направлении.

← Все записи