Прогресс ИИ обгоняет прогнозы: Аджейя Котра признала ошибку

Прогресс ИИ обгоняет прогнозы: Аджейя Котра признала ошибку

14 января 2026 года Аджейя Котра опубликовала прогноз: к концу года AI-агенты смогут стабильно решать задачи, требующие 24 часов непрерывной работы. Прошло два месяца — и она уже признала, что была слишком консервативна. Opus 4.6 от Anthropic показал горизонт планирования в 12 часов на бенчмарке METR. Котра ожидала такого результата к декабрю. Он случился в марте.

Кто такая Аджейя Котра и почему её мнение важно

Аджейя Котра — аналитик из Open Philanthropy, автор отчёта «Biological Anchors» (2020), который стал одним из самых цитируемых текстов о сроках появления трансформативного ИИ. Её методология — не гадание, а модель: она оценивает вычислительные бюджеты, темпы роста мощностей, алгоритмический прогресс и строит вероятностные распределения. Когда Котра говорит «я была слишком консервативна» — это не журналист, который не угадал с релизом iPhone. Это человек, чьи прогнозы буквально формируют инвестиционные решения фондов на миллиарды долларов.

Что именно произошло

В своём посте «I underestimated AI capabilities (again)» Котра объясняет логику обновления. Бенчмарк METR (ранее известный как HCAST) — один из немногих стандартизированных тестов, измеряющих не «может ли ИИ решить задачу», а «как долго он может продуктивно работать, прежде чем начнёт допускать критические ошибки, зацикливаться или терять контекст». Задачи берутся из реальных проектов — это не академические упражнения, а типичная работа программиста: исправление багов, рефакторинг, добавление фич. Чем длиннее «временной горизонт» — тем более автономным можно считать агента.

В январе Котра прогнозировала, что к концу 2026 года горизонт агентов составит около 24 часов. Но уже в марте Opus 4.6 показал 12 часов. «Уже не очень правдоподобно, что после десяти месяцев дополнительного прогресса в текущем бешеном темпе AI-агенты всё ещё будут в половине случаев проваливать 24-часовые задачи», — пишет Котра. Её обновлённая оценка: к декабрю горизонт может превысить 100 часов. 100 часов — это больше двух с половиной рабочих недель全职 разработчика. И после этого, замечает она, сам концепт «временного горизонта» начинает терять смысл: если агент может работать автономно несколько недель, мы уже не говорим о «помощнике» — мы говорим о полноценном сотруднике, который сам ставит себе подзадачи, проверяет результат и корректирует курс.

Почему прогнозы систематически отстают

Это уже не первый раз, когда Котра корректирует сроки в сторону ускорения. Проблема не в ней лично — она одна из самых осторожных прогнозистов в индустрии. Проблема в самой природе экспоненциального роста: человеческий мозг плохо экстраполирует нелинейные процессы. Мы видим прогресс за последние полгода, проводим прямую линию вперёд — но реальный темп продолжает ускоряться.

Есть и конкретный механизм, который постоянно недооценивают: компаундирование улучшений. Каждый новый релиз модели не просто «немного лучше» предыдущего — он используется для создания инструментов, которые ускоряют разработку следующей модели. Claude помогает писать код для обучения Gemini. Gemini генерирует данные для дообучения GPT. GPT помогает оптимизировать инфраструктуру для следующего Claude. Это не метафора — это буквально то, что происходит внутри каждой крупной лаборатории прямо сейчас.

ByteDance CUDA Agent: конкретное доказательство

Если абстрактные рассуждения о «временных горизонтах» звучат оторванными от реальности — вот конкретный пример из свежей исследовательской работы. Команда ByteDance и Университета Цинхуа создала CUDA Agent — ИИ-модель, специализированную на написании кода для графических процессоров (GPU). Именно этот код — фундамент, на котором строятся все нейросети.

CUDA Agent базируется на Seed1.6 — MoE-модели с 23 млрд активных параметров и 230 млрд общих. Исследователи дообучили её на наборе данных из 6000 примеров, извлечённых из библиотек PyTorch и Transformers. Затем превратили в агента на базе фреймворка OpenHands, дав ей доступ к инструментам Bash, редактированию файлов и автоматическому профилированию производительности.

Результаты поражают. На бенчмарке KernelBench, который измеряет способность писать эффективный код для GPU, CUDA Agent показал 100% на Level-1, 100% на Level-2 и 92% на Level-3. Для сравнения: Claude Opus 4.5 и Gemini 3 Pro на Level-3 набирают около 52% — на 40 процентных пунктов меньше. Причём это не сравнение «модели с моделью»: если взять базовые версии Opus 4.5 и Gemini 3 Pro без дообучения, они набирают 95% и 91% соответственно. То есть у проприетарных моделей огромный потенциал — они просто ещё не были адаптированы под эту конкретную задачу.

Почему CUDA-агент — это знаковая работа

Написание CUDA-кода — одна из самых дефицитных компетенций в индустрии ИИ. GPU-программирование требует понимания архитектуры чипа, управления памятью, синхронизации потоков — это не «написать Python-скрипт». Один оптимизированный CUDA-кирнел может ускорить обучение модели на 20–30%, а таких кирнелов в современной нейросети тысячи.

Дообучение заняло кластер из 128 GPU NVIDIA H20. На входе — синтетический датасет из шести тысяч примеров. На выходе — агент, который может самостоятельно профилировать существующий код, писать оптимизированную замену, компилировать, тестировать и повторять цикл до достижения целевого ускорения в 5%. И всё это в контексте до 128 тысяч токенов и за 200 итераций взаимодействия.

Это и есть тот самый компаундный эффект, который недооценивают прогнозисты. Не «ИИ стал чуть лучше писать код» — а «ИИ научился оптимизировать инфраструктуру, на которой он сам обучается». Следующая модель, обученная на кластере с CUDA Agent, будет учиться быстрее. Что позволит создать ещё более мощного агента. Который оптимизирует следующий кластер. И так далее.

14 метрик для отслеживания AI R&D Automation

Тема самосовершенствующегося ИИ давно обсуждается в теоретическом ключе, но измерять конкретно её начали только сейчас. Исследователи из GovAI и Оксфордского университета опубликовали работу с 14 метриками для оценки того, насколько ИИ-компании преуспели в автоматизации собственных исследований (AI R&D Automation, AIRDA).

Среди метрик — производительность ИИ на задачах R&D по сравнению с людьми и гибридными командами, эффективность надзора за ИИ-системами, которые строят сами себя, частота использования ИИ в критических решениях и доля вычислительных ресурсов, выделенных на автоматизацию исследований. Отдельный блок — «red teaming oversight»: насколько хорошо люди могут контролировать ИИ, который работает быстрее, чем человек способен понять его действия.

Авторы предлагают чёткое разделение ответственности. Компании должны отслеживать, не обгоняет ли прогресс в capabilities исследования в области безопасности. Правительства — создавать системы конфиденциальной отчётности для получения агрегированных данных. Независимые аналитики — оценивать публично доступные метрики через инструменты вроде Epoch и SemiAnalysis. Всё это звучит разумно, но есть нюанс: если темпы, о которых пишет Котра, сохранятся, то к моменту, когда эти метрики будут внедрены, ИИ может уже уйти далеко вперёд.

Что значит для практики

Для разработчиков и компаний, которые используют ИИ в работе, обновлённые прогнозы Котры означают одно: горизонт планирования нужно сокращать. Если вы закладываете в стратегию, что «ИИ не сможет автономно решать задачи дольше дня ещё два-три года» — вероятно, вы ошибаетесь. По оценке Котры, к концу 2026 года горизонт может превысить 100 часов. Это уже не инструмент, а сотрудник, которому можно дать задачу в понедельник и получить результат к концу недели — без единого промежуточного вопроса.

Для ИИ-инженеров сигнал ещё жёстче: когда ByteDance на 6000 примеров дообучает модель, которая обходит Claude и Gemini в написании CUDA-кода на 40 процентных пунктов, это значит, что нишевая специализация ИИ происходит невероятно быстро. Ваша уникальная компетенция — будь то написание шейдеров, оптимизация инференса или настройка пайплайнов данных — может быть автоматизирована быстрее, чем вы ожидаете. Причём не абстрактно «через пять лет», а конкретно: research paper уже опубликована, код открыт, дата — март 2026. Фреймворк OpenHands, на котором построен CUDA Agent, — open source. Любой желающий может воспроизвести результаты.

Для инвесторов и стратегов вывод Котры конкретен: пересматривайте модели юнит-экономики. Если AI-агенты к концу года смогут автономно работать 100+ часов над задачами уровня профессионального разработчика — стоимость разработки программного обеспечения, включая разработку самого ИИ, может снизиться на порядок. Это уже происходит: по данным GitHub, более 40% кода в новых проектах генерируется ИИ. А по неофициальным данным из Кремниевой долины, которые приводит Джек Кларк в Import AI, в некоторых лабораториях доля ИИ-сгенерированного кода уже превышает 70%.

Для регуляторов ситуация ещё сложнее. Исследователи из GovAI предлагают 14 метрик для отслеживания AIRDA, но внедрение этих метрик требует сотрудничества компаний, правительства и независимых аналитиков. На это уйдут месяцы, если не годы. А темп прогресса, судя по обновлению Котры, может сделать эти метрики устаревшими ещё до их внедрения. Это не аргумент «не надо ничего делать» — это аргумент «надо делать быстрее и закладывать адаптивность в сами системы измерения».

Часто задаваемые вопросы

Что такое временной горизонт AI-агента?

Это максимальная продолжительность задачи, которую AI-агент может решать автономно, не теряя продуктивности. Измеряется бенчмарком METR через задачи программирования. В марте 2026 года лучший результат — 12 часов (Opus 4.6). Год назад лучшие модели едва справлялись с одночасовыми задачами.

Почему прогнозы ИИ постоянно оказываются слишком консервативными?

Две причины. Во-первых, компаундный эффект: каждая новая модель используется для ускорения разработки следующей. Во-вторых, человеческий мозг плохо экстраполирует экспоненциальный рост — мы склонны проводить прямые линии вместо кривых. Даже профессиональные прогнозисты вроде Котры систематически недооценивают темп.

Что такое CUDA Agent от ByteDance?

Это дообученная модель Seed1.6 (23B активных / 230B общих параметров), специализированная на написании GPU-кода. На бенчмарке KernelBench Level-3 она набирает 92%, превосходя Claude Opus 4.5 и Gemini 3 Pro на 40 процентных пунктов. Обучена на 6000 примеров из PyTorch и Transformers на кластере из 128 GPU NVIDIA H20.

Итог

Аджейя Котра обновила прогнозы в сторону ускорения — и это человек, который historically был одним из самых осторожных аналитиков. Opus 4.6 достиг 12-часового горизонта планирования на 9 месяцев раньше, чем она ожидала. ByteDance показала, что узкоспециализированный ИИ-агент обходит универсальные модели на 40 процентных пунктов в написании GPU-кода. Исследователи из GovAI предложили 14 метрик для измерения самосовершенствования ИИ — но внедрить их нужно было вчера. Прогресс ИИ обгоняет прогнозы, и единственный вопрос — готовы ли мы к последствиям.

← Все записи
← Все записи