05.05.2026 Исследования

ИИ создаст сам себя: почему 2028 год станет переломным

Представьте: ИИ-система пишет код, тестирует его, оптимизирует обучение, воспроизводит научные статьи и даже руководит другими ИИ-агентами. Без единого человека в цикле. Джек Кларк, автор рассылки Import AI и сооснователь Anthropic, проанализировал публичные данные и пришёл к неутешительному выводу — с вероятностью выше 60% полностью автономные ИИ-исследования (AI R&D) станут реальностью к концу 2028 года. И речь не о гаданиях на кофейной гуще, а о конкретных числах по шести ключевым бенчмаркам, которые мы разберём ниже.

Что такое автономные ИИ-исследования

Автономные ИИ-исследования (automated AI R&D) — это ситуация, при которой ИИ-система способна без участия человека разработать, обучить и развернуть новую, более мощную версию самой себя. Звучит как научная фантастика, но все технологические компоненты для этого уже существуют или появятся в ближайшие два года. Кларк подчёркивает: речь не о том, что ИИ изобретёт принципиально новую архитектуру (хотя и такие намёки есть), а о том, что рутина, из которой на 99% состоит разработка ИИ, уже автоматизируется. Когда он говорит «все компоненты на месте» — это не метафора, а констатация факта: каждый из них уже продемонстрирован на рабочих бенчмарках.

Кодинг-сингулярность: от 2% до 94% за два года

ИИ — это программа, а программы состоят из кода. Если ИИ научился писать код на уровне человека, он уже умеет значительную часть того, что нужно для создания нового ИИ. Бенчмарк SWE-Bench измеряет именно это: способность ИИ решать реальные задачи из GitHub — те самые, с которыми сталкиваются разработчики каждый день.

Когда SWE-Bench появился в конце 2023 года, лучшим результатом были скромные 2% у Claude 2. К маю 2026-го Claude Mythos Preview набирает 93.9% — бенчмарк фактически насыщен. Два года назад ИИ едва мог починить простейший баг, а сегодня он решает задачи, над которыми разработчик потратил бы часы. В Кремниевой долине, по наблюдениям Кларка, подавляющее большинство инженеров уже кодят исключительно через ИИ — и это не хобби-проекты, а рабочие задачи фронтлабов. Более того, ИИ всё чаще используется и для написания тестов к собственному коду, замыкая цикл: написать, проверить, исправить — всё без участия человека.

12 часов без присмотра: как растёт горизонт автономности

Одно дело — написать функцию, другое — работать над проектом целый день, не прося помощи. METR, исследовательская организация, измеряет так называемый «временной горизонт» ИИ: сколько часов способен проработать skilled-человек, прежде чем ИИ ошибётся на 50% заданий. Это одна из самых важных метрик, потому что она показывает, когда ИИ переходит от «инструмента» к «автономному работнику».

В 2022 году GPT-3.5 справлялся с задачами, которые человек делает за 30 секунд. GPT-4 в 2023-м вышел на 4 минуты. В 2024-м o1 добрался до 40 минут. К началу 2026-го Opus 4.6 уже держит горизонт в 12 часов — полноценный рабочий день. Аджейя Котра, опытный прогнозист из METR, считает, что к концу 2026-го ИИ сможет автономно выполнять задачи, требующие 100 часов человеческой работы. Для контекста: значительная часть задач ИИ-исследователя — чистка данных, запуск экспериментов, анализ результатов — укладывается в несколько часов. Все эти задачи уже находятся внутри временного горизонта современных систем.

Воспроизведение научных работ: от 21% до 96%

Одна из ключевых задач ИИ-исследователя — прочитать научную статью и воспроизвести её результаты. Бенчмарк CORE-Bench проверяет именно это: ИИ получает репозиторий статьи и должен установить зависимости, запустить код и найти ответы на вопросы в выходных данных. По сути, это вся «грязная» часть воспроизведения исследований — та самая, которую аспиранты ненавидят.

В сентябре 2024-го лучший результат GPT-4o составлял 21.5% на hardest-наборе задач. К декабрю 2025-го Opus 4.5 достиг 95.5% — и авторы бенчмарка объявили его «решённым». Полтора года — и задача, казавшаяся невероятно сложной, стала рутиной. Каждый бенчмарк в истории ИИ проходил один и тот же путь: сначала «ничего не умеет», через несколько месяцев «показывает признаки жизни», ещё через полгода — «насыщен».

Построение ML-систем и тонкая настройка моделей

MLE-Bench от OpenAI проверяет способность ИИ участвовать в 75 соревнованиях Kaggle — от обработки естественного языка до компьютерного зрения и обработки сигналов. При запуске в октябре 2024-го лучший результат o1 составил 16.9%. К февралю 2026-го Gemini 3 в агентной обвязке с поиском набирает 64.4% — рост почти в четыре раза за полтора года. Это означает, что ИИ уже способен построить полноценную ML-систему для большинства стандартных задач, с которыми сталкиваются data scientists.

Ещё более показателен PostTrainBench — бенчмарк, где ИИ должен взять открытую модель (Qwen, Gemma, SmolLM) и дообучить её так, чтобы улучшить результаты на конкретных тестах. Здесь есть идеальный baseline: версии этих моделей, которые созданы людьми в лабораториях — талантливыми исследователями, работавшими неделями. По состоянию на апрель 2026-го Opus 4.6 и GPT 5.4 набирают 25–28% — против человеческих 51%. ИИ уже достигает половины человеческого уровня в одной из самых сложных задач разработки, причём темп роста подсказывает, что паритет — вопрос ближайших 12–18 месяцев.

Оптимизация обучения: ускорение в 52 раза

Пожалуй, самая впечатляющая серия данных приходит от Anthropic. Уже более года компания публикует результаты теста, в котором модели оптимизируют CPU-only реализацию обучения маленькой языковой модели — задача, типичная для ИИ-исследователя и напрямую связанная с эффективностью обучения реальных моделей.

Claude Opus 4 в мае 2025-го достиг среднего ускорения в 2.9 раза. Opus 4.5 в ноябре — уже 16.5x. Opus 4.6 в феврале 2026-го: 30x. Claude Mythos Preview в апреле 2026-го: 52x. Для сравнения: человек тратит 4–8 часов, чтобы добиться ускорения в 4 раза. Современный ИИ делает это в 13 раз быстрее лучшего человеческого результата — и продолжает ускоряться с каждым новым релизом. Эта экспонента особенно важна, потому что оптимизация обучения — одна из самых ресурсоёмких частей создания новых моделей. Если ИИ умеет ускорять обучение в 52 раза, он радикально снижает стоимость итераций при разработке собственного преемника.

Дизайн ядер: от любопытства к конкурентной области

Оптимизация GPU-ядер (kernel design) — одна из самых сложных задач в разработке ИИ. Здесь пишется код, который отображает операции вроде матричного умножения непосредственно на «железо». От качества ядер зависит, насколько эффективно используется вычислительный ресурс при обучении и инференсе. DeepSeek использует собственные модели для построения GPU-ядер, Meta автоматизирует генерацию оптимизированных Triton-ядер для своей инфраструктуры, а Huawei с помощью LLM пишет ядра для своих Ascend-чипов. ByteDance, по данным Import AI, обучает open-weight модели специально для GPU kernel design. Это область с легко проверяемыми результатами — ядро либо быстрее, либо нет — что делает её идеальным полигоном для ИИ-оптимизации.

Менеджмент других ИИ: когда агент руководит агентами

Разработка ИИ — это не только код и эксперименты. Это ещё и координация множества специалистов: один чистит данные, другой пишет архитектуру, третий запускает обучение. Инструменты вроде Claude Code и OpenCode уже реализуют паттерн, при котором один ИИ-агент руководит несколькими подчинёнными агентами с разными специализациями, работающими параллельно. Это аналог менеджера проекта — только из кремния.

В связке с растущим временным горизонтом получается взрывоопасная комбинация: ИИ, способный работать автономно 12 часов, может делегировать подзадачи другим ИИ, контролировать их работу, интегрировать результаты и принимать решения. Именно так работают ИИ-исследовательские команды в лабораториях — только пока с людьми. Замена людей на ИИ в этой цепочке — вопрос времени, и, судя по данным, совсем небольшого.

Гений или конструктор? Почему это не обязательно должно быть Эйнштейном

Кларк задаёт ключевой вопрос: должен ли ИИ быть творческим гением, чтобы автоматизировать собственную разработку? Его ответ — нет. Подавляющая часть прогресса в ИИ за последние годы — это не прорывные идеи уровня Transformer или Mixture-of-Experts, а методичная, рутинная работа: взять работающую систему, масштабировать, найти что сломалось, починить, масштабировать снова.

Эдисон говорил, что гений — это 1% вдохновения и 99% пота. Даже 150 лет спустя это наблюдение применимо к ИИ-исследованиям. Прорывные архитектуры появляются раз в несколько лет, а между ними — тысячи часов методичной инженерной работы. ИИ уже очень хорош именно в этих 99%. Нейроархитектурный поиск (neural architecture search) — ранний пример того, как ИИ может сам определять, какие параметры варьировать. Современные системы делают это значительно лучше. А если добавить способность воспроизводить научные работы, оптимизировать обучение и писать код — получается почти полный набор инструментов для автономного ИИ-исследователя.

Исследования безопасности: ИИ уже обходит людей

Особый интерес представляет эксперимент Anthropic по автоматизации исследований выравнивания ИИ (AI alignment). Исследователь задаёт команде ИИ-агентов направление, после чего они автономно разрабатывают методы, которые обходят baseline, созданный людьми в Anthropic. Речь о конкретной задаче scalable oversight — и ИИ-агенты предложили техники, показавшие лучшие результаты, чем подход, разработанный профессиональными исследователями безопасности.

Это пока proof-of-concept небольшого масштаба, не обобщающийся на production-модели. Но паттерн знакомый: именно так начинались CORE-Bench, SWE-Bench и MLE-Bench — сначала «демонстрация принципа», а через несколько месяцев резкий скачок производительности. Если та же траектория сохранится для alignment-исследований, ИИ сможет не только строить свои преемницы, но и обеспечивать их безопасность — без участия людей.

Часто задаваемые вопросы

Значит ли это, что ИИ станет умнее человека во всём?

Нет. Речь конкретно об автоматизации исследований и разработки в области ИИ — узкой, хотя и критически важной области. ИИ не обязательно должен быть «умнее человека вообще», чтобы эффективно заменять исследователей в конкретных задачах: написании кода, проведении экспериментов, оптимизации гиперпараметров. Это узкая суперсила, но именно в той области, где она может вызвать каскадный эффект.

Почему именно 2028 год, а не раньше или позже?

Кларк ожидает proof-of-concept — модель, которая end-to-end обучает свою преемницу — в течение года или двух, но на небольших моделях. Frontier-модели значительно дороже и сложнее, их автоматизация потребует больше времени. 2028 год — реалистичная оценка для появления полностью автономного цикла на уровне frontier-моделей, с оговоркой, что «proof-of-concept на малых моделях» может появиться уже в 2027-м.

Какие риски несёт автоматизация ИИ-исследований?

Главный риск — потеря контроля над скоростью развития ИИ. Если система может сама разрабатывать свои улучшения, цикл «улучшение → применение → следующее улучшение» сжимается до часов вместо месяцев. Это может привести к сценариям, где люди физически не успевают оценивать безопасность каждого нового поколения моделей. Кларк прямо пишет, что общество не готово к изменениям такого масштаба, и планирует посвятить остаток 2026 года осмыслению последствий.

Итог

Данные не лгут: от SWE-Bench до PostTrainBench, от 30-секундных задач до 12-часовых проектов, от ускорения в 2.9x до 52x — ИИ-системы неуклонно приближаются к способности автономно выполнять все ключевые компоненты ИИ-исследований. Джек Кларк называет это «переходом Рубикона» — и судя по темпам роста на каждом из рассмотренных бенчмарков, этот переход может произойти гораздо раньше, чем ожидало большинство экспертов. Вопрос больше не «если», а «когда» — и «когда» всё ближе к «скоро». Самое время задуматься, что мы будем делать с миром, где ИИ строит сам себя.