CUDA-агент ByteDance: ИИ пишет код для обучения ИИ
ByteDance — компания, стоящая за TikTok — вместе с Университетом Цинхуа сделала то, что ещё недавно казалось фантастикой: обучила языковую модель писать CUDA-код, который оптимизирует обучение будущих ИИ-моделей. Результат — 100% успех на первых двух уровнях бенчмарка KernelBench и 92% на самом сложном. Claude Opus 4.5 и Gemini 3 Pro на том же уровне показали около 52%. Разница — почти вдвое.
Что такое CUDA Agent
CUDA Agent — это Seed1.6, Mixture-of-Experts модель с 23 млрд активных и 230 млрд общих параметров, дообученная для генерации GPU-ядер. Архитектура MoE означает, что при каждом запросе активируется лишь малая часть модели — примерно 10% от общего числа параметров, — что делает её быстрой и эффективной. При этом модель остаётся достаточно мощной для задач, требующих глубокого понимания параллельных вычислений.
Дообучение проводилось на кластере из 128 GPU NVIDIA H20. Training-датасет получил название CUDA-Agent-Ops-6K — шесть тысяч примеров, отобранных из кода библиотек PyTorch и Transformers. Каждый пример представляет собой задачу по переписыванию стандартного PyTorch-оператора в кастомное CUDA-ядро для ускорения вычислений. Такой подход позволил сфокусировать модель именно на практических задачах оптимизации, с которыми сталкиваются разработчики ИИ-инфраструктуры каждый день.
Из модели в агента: как работает цикл оптимизации
Превратить LLM в продуктивного агента можно, дав ей специализированные инструменты и чёткую стратегию работы. Команда ByteDance использовала фреймворк OpenHands и вооружила модель четырьмя инструментами: BashTool для выполнения консольных команд, GlobTool для поиска файлов в проекте, MultiEditTool для редактирования нескольких участков кода одновременно и TodoWriteTool для управления списком задач.
Агент работает в четыре этапа, повторяя цикл до достижения результата. Сначала он анализирует производительность нативной PyTorch-реализации через встроенный профайлер — замеряет время выполнения, использование памяти, пропускную способность. Затем пишет кастомное CUDA-ядро, заменяя стандартную реализацию оптимизированной версией, которая учитывает особенности архитектуры GPU — разделяемую память, варп-кооперацию, векторизованные нагрузки. Третий шаг — компиляция и тестирование в песочнице на реальном GPU. Если ускорение составляет менее 5% по сравнению с torch.compile — агент возвращается к первому шагу, переписывая код с учётом профиля ошибок.
Важная техническая деталь: агент поддерживает контекст до 128 000 токенов и до 200 итераций взаимодействия. Это означает, что он может работать над сложными задачами, требующими множества попыток, не теряя при этом контекста предыдущих итераций. Каждая итерация добавляет в контекст результаты профилирования, ошибки компиляции и логи тестирования — именно так работал бы опытный CUDA-программист, только значительно быстрее.
Конкретные результаты на KernelBench
KernelBench — бенчмарк для оценки способности моделей генерировать эффективные CUDA-ядра. Он разделён на три уровня сложности. Level-1 содержит базовые операторы вроде матричного умножения и свёртки. Level-2 — составные операторы, объединяющие несколько базовых операций. Level-3 — сложные задачи, требующие написания нескольких взаимодействующих CUDA-ядер с ручным управлением памятью и синхронизацией.
CUDA Agent показал 100% на Level-1, 100% на Level-2 и 92% на Level-3. Для сравнения — Claude Opus 4.5 и Gemini 3 Pro без дообучения набирают около 52% на Level-3. Разница составляет порядка 40 процентных пунктов — и это на самом сложном уровне, где требуется глубокое понимание архитектуры GPU.
Однако справедливости ради стоит отметить важный нюанс. Базовые версии Claude Opus 4.5 и Gemini 3 Pro без дообучения показывают 95.2% и 91.2% соответственно на Level-1, то есть их исходная способность решать задачи CUDA уже высока. Если бы эти модели прошли аналогичное дообучение на датасете из 6000 CUDA-примеров, результаты могли бы оказаться ещё выше. ByteDance не проводила такого сравнения, и это стоит иметь в виду при интерпретации результатов. Преимущество CUDA Agent во многом обусловлено специализированным дообучением, а не фундаментальным превосходством базовой модели.
Почему CUDA-оптимизация — ключевой bottleneck
CUDA — язык программирования GPU от NVIDIA, и на нём написана практически вся инфраструктура обучения современных ИИ-моделей. Эффективность CUDA-кода напрямую определяет, сколько стоит обучение модели и сколько времени оно занимает. Разница между хорошо и плохо написанным CUDA-ядром может составлять десятикратное ускорение — а это значит, что при том же бюджете можно провести в десять раз больше экспериментов.
Специалистов по CUDA-программированию крайне мало. Это узкая, высокотехнологичная область, требующая понимания архитектуры GPU на уровне регистров, разделяемой памяти и варпов. Конкуренция за таких разработчиков между ИИ-лабораториями огромна. Автоматизация хотя бы части их работы — это прямое ускорение всего цикла разработки ИИ.
CUDA Agent представляет собой конкретный, работающий пример того, как ИИ начинает оптимизировать собственную инфраструктуру. Модель пишет код, который ускоряет обучение моделей-преемников. Те, в свою очередь, смогут писать ещё более эффективный код. Это не теоретическая возможность из научной фантастики — это рабочий прототип с измеримыми результатами, опубликованный на arXiv.
Геополитический контекст: H20 вместо отечественных чипов
Один из примечательных фактов статьи — ByteDance проводила дообучение на кластере из 128 GPU NVIDIA H20. Это экспортная версия чипов NVIDIA для китайского рынка, существенно ограниченная по сравнению с полными H100. Тем не менее, крупная китайская лаборатория продолжает использовать американские чипы, а не отечественные разработки вроде Huawei Ascend. Это говорит о том, что технологический разрыв в GPU между США и Китаем пока сохраняется, несмотря на значительные инвестиции Пекина в развитие собственных полупроводников.
Одновременно это показывает, что даже ограниченные версии чипов NVIDIA остаются достаточно мощными для серьёзных исследований в области ИИ. H20, хотя и уступает H100 в пропускной способности памяти и вычислительной мощности, позволяет обучать и дообучать модели масштаба Seed1.6.
Параллельный трек: метрики AIRDA от GovAI и Оксфорда
Параллельно с практическими результатами ByteDance, исследователи из GovAI и Оксфордского университета опубликовали работу о том, как измерять прогресс в автоматизации ИИ-исследований — явления, которое они называют AIRDA (AI R&D Automation). Они предлагают 14 метрик, каждая из которых отслеживает определённый аспект того, насколько ИИ способен самостоятельно разрабатывать новые ИИ-системы.
Среди этих метрик — оценка производительности ИИ на R&D-задачах по сравнению с людьми, измерение того, насколько хорошо люди могут контролировать ИИ-системы, которые строят сами себя, отслеживание распределения вычислительных ресурсов между этапами R&D-процесса и мониторинг того, как часто ИИ-системы отклоняются от целей своих разработчиков.
Авторы прямо пишут, что AIRDA может ускорить появление разрушительных возможностей, включая оружие массового поражения. Их рекомендации конкретны: компании должны отслеживать, не обгоняет ли прогресс в capabilities-исследованиях прогресс в безопасности. Правительства — создавать механизмы конфиденциального сбора агрегированных данных от компаний. Третьи стороны — оценивать метрики по открытым источникам, как это уже делают Epoch и SemiAnalysis.
Аджейя Котра обновила прогнозы — снова
На фоне этих новостей Аджейя Котра, один из самых авторитетных прогнозистов в области ИИ, опубликовала очередное обновление своих оценок. Ещё в январе 2026 года она предсказывала, что к концу года ИИ-агенты справятся с задачами протяжённостью около 24 часов. Но уже к марту Opus 4.6 показал горизонт в 12 часов на бенчмарке METR — и это при том, что прошло всего два месяца с момента прогноза.
Котра пишет, что больше не верит в правдоподобность сценария, при котором за десять месяцев дополнительного прогресса агенты всё ещё будут испытывать трудности с 24-часовыми задачами. Её новый прогноз — к концу 2026 года агенты будут работать с задачами протяжённостью свыше 100 часов, что эквивалентно нескольким полным рабочим неделям. И тут же задаётся вопрос: не теряет ли само понятие «временной горизонт» смысл, когда речь идёт о таких масштабах. Если агент может автономно работать несколько недель, это уже не инструмент — это скорее сотрудник.
Часто задаваемые вопросы
Что такое CUDA и зачем ИИ его писать?
CUDA — платформа параллельных вычислений от NVIDIA для GPU. Практически все современные ИИ-модели обучаются на GPU, и эффективность CUDA-кода напрямую определяет скорость и стоимость обучения. Автоматизация написания CUDA-ядер снижает зависимость от редких специалистов и ускоряет цикл разработки новых моделей.
Насколько CUDA Agent лучше людей?
Прямого сравнения с людьми-программистами в статье нет, но 92% на Level-3 KernelBench — это уровень, требующий глубокого понимания архитектуры GPU, управления памятью и оптимизации параллельных вычислений. Задачи такого уровня по силам только опытным CUDA-разработчикам с многолетним стажем.
Что означает Mixture-of-Experts в контексте CUDA Agent?
MoE — архитектура, при которой модель содержит множество «экспертов», но при каждом запросе активирует лишь небольшую часть. Seed1.6 имеет 230 млрд параметров, но активно использует только 23 млрд. Это даёт мощность большой модели при скорости маленькой — критически важно для агента, который делает сотни итераций с профилированием и перекомпиляцией.
Итог
CUDA Agent от ByteDance — не просто ещё одна модель, хорошо справляющаяся с бенчмарком. Это рабочий пример замкнутого цикла: ИИ пишет код, который ускоряет обучение ИИ. Добавьте к этому метрики GovAI для отслеживания прогресса автоматизации исследований и обновлённые прогнозы Котры — и картина вырисовывается достаточно ясная. Автоматизация ИИ-исследований переходит из теоретической возможности в инженерную практику, и каждый новый результат вроде CUDA Agent делает этот переход более зримым. Вопрос не в том, произойдёт ли это, а в том, насколько быстро и насколько хорошо мы будем это отслеживать.