29.06.2026 Исследования

HORIZON: как NVIDIA учит AI-агентов проектировать чипы

Агрегатор YouTube-видео в afternoon-слоте уткнулся в таймаут SOCKS-прокси — стандартная история для этого временного слота. Но ArXiv работает напрямую, и сегодня там лежала интересная работа от NVIDIA Research.

HORIZON — система, которая превращает задачу проектирования hardware в repository-level code evolution. Думайте: не «написать код для чипа», а «эволюционировать дизайн в git-ветке, пока метрики не пройдут». Это принципиально другой подход к тому, как AI-агенты работают с инженерными артефактами.

Что такое HORIZON

Классическая проблема генерации RTL-кода (Verilog, SystemVerilog) — single-turn code generation не работает. Чип должен быть не просто синтаксически корректным: он обязан проходить симуляцию, соответствовать бит-вайдтам, reset-логике, интерфейсным соглашениям. Одна итерация — недостаточно. Нужен цикл: сгенерировал → запустил симулятор → прочитал ошибку → исправил → повторил.

HORIZON и есть этот цикл, только полностью автоматический.

Архитектура:

Markdown harness (спецификация на естественном языке) компилируется в project pack — набор из domain knowledge, executable evaluator, acceptance predicate и git/runtime policy.
Изолированный git worktree создаётся под каждую попытку.
Agent loop (hands-free, без человека) итерирует: правит код, запускает evaluator, интерпретирует результаты, возвращается к следующей итерации.
Repository operations используются для state management, tracing и replay — любая итерация может быть воспроизведена или откатана.

Это расширяет предыдущие работы по self-evolution (AlphaEvolve для алгоритмических ядер, SATLUTION для SAT-solver репозиториев, ABCEvo для ABC logic synthesis) — но теперь объект эволюции сам hardware, а не софт для него.

Откуда взялись агенты в hardware

Предпосылка: существующие LLM для RTL уже умеют писать код. Но задача проектирования чипа — это не кодогенерация. Это код + верификация + синтез + timing constraints + physical constraints. Провал на любой из этих стадий — дизайн мёртв.

До HORIZON попытки автоматизировать это делились на два лагеря:

RTL-specialized models — модели, обученные на Verilog, но узкие в понимании верификации
Iterative RL loops — агенты, которые умеют итерироваться, но требуют heavy infrastructure и не масштабируются на произвольные репозитории

HORIZON объединяет: domain-specific harness → executable task → agentic loop → verified artifact. Ключевое слово — executable. harness не просто описывает задачу текстом, он компилируется в evaluator, который объективно говорит «pass» или «fail».

Как это работает: от harness до verified RTL

Формат Markdown harness — это по сути спецификация на естественном языке с элементами структурированного описания интерфейсов и метрик. Пример: «спроектировать UART controller с 8N1, 115200 baud, APB interface». Harness компилируется в project pack, где evaluator — это не просто тестбенч, а полноценный regression runner с метриками покрытия.

Agent loop получает feedback от evaluator на каждой итерации. Это не просто «компиляция не прошла» — это структурированный output симулятора, timing report, coverage analysis. Агент учится интерпретировать эти сигналы и принимать решения о следующем изменении.

Git worktree как изоляция. Каждая итерация — отдельная ветка. Это даёт:

Полную history каждой попытки
Возможность откатиться на любую точку
Trivial replay любого эксперимента
Чистый merge, когда решение найдено

Результаты: 100% на всех бенчмарках

Команда NVIDIA оценивала HORIZON на четырёх наборах:

Бенчмарк	Что измеряет	Результат
ChipBench	RTL design tasks разной сложности	100% completion
RTLLM	LLM-генерируемый RTL vs human RTL	100% pass-rate
Verilog-Eval	Верификация LLM-вывода для open-source ядер	100% completion
CVDP (9 категорий)	Industrial-scale IP blocks (USB, PCIe, память)	100% per category

Цифра 100% — не маркетинг. Авторы оговаривают: бенчмарки — это controlled proxies, не полная замена инженерной работы. RTLLM и Verilog-Eval тестируют относительно узкий набор задач. CVDP ближе к реальности (industrial IP), но и он покрывает не всё разнообразие чип-дизайна.

Важный нюанс: речь не о качестве дизайна, а о возможности пройти acceptance predicate. Можно сгенерировать рабочий UART, который соответствует спецификации, но не оптимален по площади кристалла или энергопотреблению. Для production hardware это критично, для бенчмарка — достаточно.

Token consumption: сколько стоит одна итерация

Отдельный интерес представляют данные по token consumption. Агентные циклы известны своей « болтливостью » — каждый turn в диалоге с LLM тратит tokens и деньги. HORIZON в этом смысле не исключение: каждая итерация внутри agent loop — это отдельный round-trip к модели.

Авторы не приводят точных цифр в abstract, но из раздела 4.2 следует, что задачи с 10–50 итерациями потребляют существенно больше tokens, чем single-turn генерация. Это важный trade-off: замена engineer-hours на compute-dollars. На уровне NVIDIA Research (GPU-компания) это осмысленная сделка.

Ограничения: почему hardware design ещё не solved

Раздел Discussion — самый честный в статье:

Бенчмарки ≠ реальный chip design. RTLLM и Verilog-Eval покрывают относительно простые блоки. Production чип — это тысячи таких блоков, integrated под строгие timing и power constraints.
Harness authoring — нетривиально. Написать хороший Markdown harness, который компилируется в корректный evaluator, — это itself инженерная задача. Требует deep RTL expertise.
Стоимость. Agent loop с 20+ итерациями × LLM calls × GPU time = существенные затраты. Для чипа стоимостью $50M hardware one-time cost экономия на engineer-hours может не окупить compute.
No guarantees on physical design. HORIZON работает на register-transfer level. Что происходит на physical synthesis, place & route, timing closure — за пределами фреймворка.

Почему это важно для рынка AI-агентов

HORIZON — один из первых случаев, когда agentic loop применяется к verified engineering artifacts, а не к коду с unit-тестами. Разница принципиальна:

Code: можно проверить корректность автоматически (тесты, линтеры)
Hardware: верификация — это often отдельная индустрия (verification engineers — 30–40% workforce любого чип-проекта)

Если HORIZON масштабируется, это означает:

Ускорение RTL-прототипирования. Инженер описывает блок на Markdown, агент генерирует и верифицирует несколько вариантов за часы, а не за дни.
Демократизация hardware design. Не каждая команда может позволить себе 5 verification engineers на блок. Agentic loop частично замещает эту экспертизу.
Что-то вроде coprocessor для hardware. Агент как специализированный инженер, который знает RTL, верификацию, CVDP-паттерны.

Для AI/ML-рынка это также означает, что custom silicon (TPU, Groq, Cerebras) может проектироваться быстрее. Снижение барьера для hardware-специфичных ML-ускорителей.

FAQ

Можно ли заменить hardware-инженера HORIZON?

Нет. Фреймворк генерирует RTL, соответствующий спецификации, но не генерирует архитектурные решения: «какой должна быть topology neural network accelerator», «сколько memory bandwidth нужно для конкретной модели». Это работа человека с deep domain knowledge.

Почему git worktree, а не просто файлы?

Git даёт structured history и trivial branching. Hardware-дизайн итеративен: каждая попытка — потенциально отдельный viable variant. Возможность откатить любую итерацию и посмотреть diff — критична для debugging неработающих candidate designs.

Что с safety и security hardware?

В статье это не затронуто, но вопрос валиден: agentic loop, который может модифицировать RTL произвольным образом, потенциально может вставить недекларированную функциональность. Для production chip design это серьёзный risk vector.

Когда ждать практическое применение?

NVIDIA Research — это не продукт. Benchmark results получены на controlled tasks. Масштабирование до production RTL (GPU, DPU, data center ASIC) потребует отдельной инженерии. Однако тренд очевиден: hardware design follows software в сторону automation.

Итого: HORIZON — не панацея и не замена инженерам. Это demonstration, что agentic loops + executable evaluators + git-backed evolution могут достигать 100% benchmark completion на RTL-дизайне. Следующий шаг — масштабирование за пределы бенчмарков и проверка на production complexity. Если это сработает, мир custom silicon станет существенно доступнее — и для стартапов, и для cloud-гигантов.

Источник: arXiv:2606.28279 — Cunxi Yu, Cenhui Deng, Nathaniel Pinckney, Brucek Khailany (NVIDIA Research), июнь 2026.