Автоматизация ИИ-исследований: Anthropic обогнал людей

Автоматизация ИИ-исследований: Anthropic обогнал людей

Два исследователя из Anthropic работали семь дней над задачей выравнивания и добились показателя PGR 0.23. Затем подключили команду ИИ-агентов — и за пять дней они подняли PGR до 0.97, закрыв почти весь оставшийся разрыв. Это не фантастический сценарий, а результаты реального эксперимента, опубликованные Anthropic в апреле 2026 года.

Что такое автоматизированные ИИ-исследователи

Automated Alignment Researchers (AAR) — это автономные ИИ-агенты на базе Claude Opus 4.6, которые способны самостоятельно формулировать гипотезы, ставить эксперименты, анализировать результаты и итерировать. Группа таких агентов работает параллельно, каждый в своей изолированной среде, но с возможностью обмениваться находками через форум и загружать снимки кода в общее хранилище. По сути — целая исследовательская лаборатория, где вместо аспирантов сидят копии Claude.

Концепция не нова: разговоры об автоматизации науки ведутся годами. Но Anthropic — первые, кто показал конкретные, измеримые результаты на реальной исследовательской задаче, причём результаты, которые превосходит человеческую базовую линию.

Задача weak-to-strong supervision

Эксперимент построен вокруг задачи weak-to-strong supervision — можно ли обучить сильную модель, используя только supervision от более слабой. Метафора простая: может ли ученик начальной школы проверять диссертацию профессора? Звучит абсурдно, но именно эта проблема лежит в центре выравнивания ИИ — если мы не сможем контролировать системы умнее нас, последствия будут непредсказуемыми.

Меры успеха — Performance Gap Recovered (PGR). Чем выше, тем лучше. Человеческая базовая линия: два исследователя Anthropic, семь дней работы, PGR 0.23 на моделях Qwen 3-4B-Base (сильная) и Qwen 1.5-0.5B-Chat (слабый учитель).

Как Anthropic обогнал людей

Команда AAR отработала 800 суммарных часов исследований за пять календарных дней — параллелизм делает своё дело. Люди работали 7 дней, но последовательно. Агенты работали 5 дней, но одновременно, и их было много.

Итог: PGR вырос с 0.23 до 0.97. Практически полное восстановление performance gap. Затраты — около $18 000 в токенах и вычислениях, или примерно $22 за AAR-час. Для сравнения: час работы исследователя ML в США стоит $50–150, не считая накладных расходов.

Но главное — метод, найденный агентами, обобщался на новые данные: PGR 0.94 на математических задачах и 0.47 на программировании, что всё равно вдвое выше человеческой базовой линии.

Архитектура автономной лаборатории

Каждый AAR — это Claude Opus 4.6 с доступом к набору инструментов: функции для обучения и вывода моделей, базовые реализации, и несколько MCP-инструментов для отправки результатов на оценку, обмена находками с другими AAR и загрузки кода. Никакого детального планирования — агенты работают автономно, сами решают, какие эксперименты ставить.

Ключевая проблема, с которой столкнулась команда — энтропийный коллапс. Когда несколько агентов работают параллельно над одной задачей, они склонны сходиться к одному и тому же направлению, вместо того чтобы исследовать разные подходы. Это знакомо любому, кто работал с ансамблевыми методами: разнообразие критически важно.

Лучшее решение оказалось неожиданно простым: человек-направляющий. Каждому AAR назначали расплывчатое, но уникальное направление — например, «совмести weak-to-strong supervision и unsupervised elicitation». Короткое, открытое, но suffisantly разное для каждого агента. Эта «направленная» стратегия обошла полностью свободное исследование.

Где система пока слаба

Результаты звучат впечатляюще, но есть серьёзные ограничения. Самое важное: метод не обобщается на production-инфраструктуру. Когда исследователи взяли лучший подход AAR и применили его к Claude Sonnet 4.5 с реальной обучающей инфраструктурой Anthropic — статистически значимого улучшения не получилось. Агенты склонны использовать возможности, уникальные для конкретных моделей и датасетов, с которыми работают.

Вторая проблема: человеческая калибровка всё ещё необходима. Без направляющих подсказок агенты не расходятся по направлениям. Без правильно поставленной задачи и метрики AAR будут оптимизировать не то, что нужно. Человек по-прежнему определяет, что измерять и как оценивать — это не автоматная грамотность, а исследовательская интуиция.

Третья: стоимость. $18 000 за один эксперимент на относительно небольших моделях. Масштабирование до frontier-моделей потребует на порядки больших бюджетов — а значит, автоматизация пока доступна только крупнейшим лабораториям.

Почему это имеет значение прямо сейчас

Этот эксперимент — ранний, но конкретный сигнал о том, что автоматизация ИИ-исследований уже практична для задач с чётко определённой метрикой успеха. Не через пять лет, не «когда модели станут умнее» — сейчас. На задачах, где можно автоматизировать оценку (outcome-gradable problems), ИИ-агенты уже превосходят людей.

Значимость выходит далеко за рамки выравнивания. Подумайте о том, что происходит: машина улучшает машину. Если агенты могут находить лучшие методы обучения для конкретных задач, следующий логический шаг — поручить им разработку новых архитектур, функций потерь, стратегий данных. Каждый такой цикл ускоряет следующий. Это не сингулярность, но это чёткий шаг к ней.

Авторы исследования формулируют ключевое ограничение так: «The true question is at what point the machines can propose their own research directions effectively». Пока человек задаёт направления — он в цикле. Когда агент сам начнёт формулировать продуктивные исследовательские вопросы — это будет качественно другой режим.

Параллельный сигнал: HiFloat4 и гонка эффективности

В том же выпуске Import AI — ещё один любопытный сигнал из Китая. Huawei разработала HiFloat4, 4-битный формат точности для обучения и вывода на своих чипах Ascend. В тестах на моделях OpenPangu-1B, Llama3-8B и Qwen3-MoE-30B формат показал relative loss около 1.0% по сравнению с BF16 baseline, тогда как западный стандарт MXFP4 давал 1.5%.

Разница в 0.5% кажется небольшой, но она систематическая и растёт с размером модели. Для Huawei, которая не может купить H100 в нужных объёмах из-за экспортных ограничений, каждый процент эффективности на вес золота. HiFloat4 — это ещё один 4-битный формат от HiFloat8, и он показывает, что китайские компании последовательно выжимают максимум из доступного железа.

Связь с историей Anthropic прямая: по мере того как обучение становится дешевле (HiFloat4 и аналоги) и автоматизируется (AAR и аналоги), стоимость ИИ-исследований стремительно падает. Больше экспериментов за те же деньги, больше итераций, быстрее прогресс.

Что значит для практиков

Если вы работаете с ML, вот три вывода, которые стоит учесть уже сегодня.

Первое: оценивайте свои задачи на «outcome-gradability». Если у задачи есть чёткая метрика, которую можно автоматически вычислить — её, вероятно, уже можно поручить ИИ-агентам. Гиперпараметрическая оптимизация, поиск архитектур, даже проектирование промптов — кандидаты на автоматизацию.

Второе: человеческая роль смещается от исполнения к постановке задач. Выгоднее всего будет тот, кто умеет формулировать правильные вопросы и определять метрики — именно это делали исследователи Anthropic в эксперименте с AAR.

Третье: следите за стоимостью. $22 за AAR-час уже конкурентоспособно с человеком. Через поколение моделей цена упадёт ещё в 2–5 раз, а качество вырастет. Экономика исследований меняется на наших глазах.

Часто задаваемые вопросы

Могут ли AAR полностью заменить ИИ-исследователей?

Нет, пока не могут. AAR эффективны на задачах с чёткой метрикой, но не формулируют собственные направления исследований. Человек по-прежнему определяет, что изучать и как оценивать. Полная замена исследователей потребует систем, способных к самостоятельной генерации продуктивных научных вопросов.

Что такое PGR (Performance Gap Recovered)?

PGR — это доля разрыва в производительности между слабой и сильной моделью, которую удаётся восстановить через weak-to-strong supervision. PGR 0.97 означает, что метод восстановил 97% разрыва — практически полное восстановление. PGR 0.23 — только четверть.

Почему метод AAR не сработал на production-инфраструктуре?

Автоматические исследователи склонны переобучаться на специфические свойства конкретных моделей и датасетов. Методы, прекрасно работающие на Qwen 3-4B, не переносятся на Claude Sonnet с реальной обучающей инфраструктурой. Это ключевое ограничение текущего подхода.

Итог

Anthropic показал, что автоматизация ИИ-исследований — не далёкая фантазия, а работающая технология с измеримыми результатами. Автономные агенты превзошли людей на конкретной задаче выравнивания за $18 000 и 5 дней. Ограничения серьёзны: методы плохо обобщаются, человек всё ещё нужен для калибровки, а стоимость масштабирования на frontier-модели пока заоблачна. Но тренд очевиден — машины учатся улучшать машины, и каждый такой цикл быстрее предыдущего.

Если вы хотите понять, к чему это ведёт, задайте себе вопрос: а что вы будете делать, когда ИИ-агент сможет ставить и решать исследовательские задачи лучше вас в вашей собственной области?

← Все записи
← Все записи