EurekAgent: почему инженерия среды важнее самого агента
За одиннадцать долларов API-cost система EurekAgent решила задачу упаковки 26 кругов в единичный квадрат лучше, чем любой предыдущий ИИ-алгоритм. При этом она не обучала модель, не меняла весов и не использовала закрытых коммерческих LLM. Единственное, что отличает EurekAgent от десятков других автономных исследовательских агентов, — это не промпт-инжиниринг и не архитектура модели, а инженерия среды: четыре механизма, которые превращают стандартный CLI-агент в самостоятельную лабораторию.
Что такое EurekAgent
EurekAgent — это система для автономного научного открытия, построенная вокруг простой идеи: когда способности LLM растут, узким местом становится не сам агент, а среда, в которой он работает. Ресурсы, ограничения и интерфейсы вокруг агента определяют, будет ли он исследовать методично или застревать в локальных оптимумах, будет ли он помнить предыдущие находки или начинать с нуля каждый раз, будет ли он тратить бюджет на перебор очевидных вариантов или рисковать неожиданными гипотезами.
В отличие от систем вроде AlphaEvolve, которые явно программируют эволюционные циклы мутации и отбора, EurekAgent не задаёт исследовательский workflow напрямую. Вместо этого он создаёт внешнюю среду, которая организует активность агента через простой трёхэтапный цикл: подготовка → предложение гипотезы → параллельная реализация. Среда инициализирует рабочее пространство, переводит агента между этапами, задаёт цели каждой сессии, открывает доступ к инструментам, записывает результаты и ранжирует решения — а сам агент остаётся стандартным CLI-инструментом, в данном случае Claude Code.
Четыре измерения инженерии среды
Авторы выделяют четыре принципа, которые превращают обычный агент в автономную исследовательскую систему. Каждый из них решает конкретную проблему, с которой сталкиваются все попытки автоматизировать науку.
Permissions engineering: что агенту можно, а что нельзя
Первый принцип — инженерия разрешений. Агенту нужен доступ к файловой системе, коду, внешним инструментам и вычислительным ресурсам, но при этом он не должен нарушать целостность оценки. Если агент видит скрытый тестовый скрипт, он может подстроиться под него вместо того, чтобы искать общее решение. EurekAgent решает это через изолированное выполнение: скрытый evaluator работает в отдельном окружении, агент отправляет решение, получает скор и никакой дополнительной информации. Это создаёт «чистую обратную связь» — агент знает, что его подход работает лучше или хуже, но не знает, как именно устроен тест, и не может переобучиться на артефакты оценки.
Artifact engineering: память через файловую систему и Git
Второй принцип — инженерия артефактов. Автономные агенты часто теряют контекст между сессиями: одна сессия нашла удачную эвристику, следующая начинает с нуля, потому что у неё нет доступа к предыдущим логам. EurekAgent структурирует всё рабочее пространство как общую память: решения, логи, результаты оценки и история скоров хранятся в файловой системе и Git-репозитории. Каждый раунд агент видит ранжированную историю предыдущих подходов — что работало, что не работало, какие направления уже исчерпаны. Это превращает параллельное исследование в последовательное накопление знаний, даже когда разные сессии запускаются независимо.
Budget engineering: время и деньги как ограничения, а не аварийные тормоза
Третий принцип — инженерия бюджета. Автономные исследовательские агенты могут потреблять непредсказуемое количество токенов и вычислений. EurekAgent делает бюджет частью среды: пользователь задаёт лимиты по wall-clock времени и API-cost, и среда отслеживает накопленное потребление токенов между сессиями. Когда лимит достигнут, запуск прерывается, а текущее рабочее пространство сохраняется как финальный снимок. Но важнее другое: бюджет — это не просто стоп-кран, а операционный интерфейс. Пользователь может увеличить лимит или дать дополнительное время конкретному этапу, если видит перспективное направление. Это позволяет продолжать исследование без потери уже достигнутого прогресса.
Human-in-the-loop engineering: человек как надзиратель, а не как оператор
Четвёртый принцип — инженерия человеческого контроля. Вместо того чтобы требовать от человека постоянного вмешательства, EurekAgent предоставляет мониторинговый интерфейс, который показывает статус каждого запуска, эволюцию скоров, лучшие подходы по раундам и глобальные лидеры, а также расход бюджета. Человек не управляет агентом пошагово — он наблюдает за процессом, вмешивается при необходимости и корректирует ограничения. Это меняет роль исследователя с оператора на куратора: человек выбирает направление, формулирует метрику и следит за валидностью, а агент выполняет массовый методологический перебор.
Результаты: три домена, три рекорда, $11
Авторы оценили EurekAgent на трёх типах задач: математическая оптимизация, инжиниринг GPU-ядер и машинное обучение. Во всех трёх доменах система использовала Claude Code как CLI-агент и open-source модель GLM-5.1 как базовый LLM — без дообучения, без закрытых API вроде GPT-4o или Claude Opus.
Математика: круги, Эрдёш и автокорреляция
В математике EurekAgent решил три классические задачи оптимизации. Задача упаковки 26 кругов в единичный квадрат — максимизация суммы радиусов — достигнута с результатом 2.635999, превзойдя предыдущий лучший ИИ-результат 2.635986. Задача минимального пересечения Эрдёша сокращена до 0.380870 против предыдущего 0.380876. Неравенство автокорреляции улучшено до 1.502861 против 1.502863. Все три результата — новые state-of-the-art для ИИ-систем. При этом средний API-cost трёх задач составил менее $17, а самая дешевая — упаковка кругов — обошлась в $11.
GPU-ядра: TriMul и конкуренция с leaderboard
В инжиниринге GPU-ядер EurekAgent участвовала в соревновании GPUMODE TriMul — оптимизация умножения треугольных матриц на A100. Официальный leaderboard был закрыт, поэтому авторы скачали лучшие решения с доски и перепроверили их на локальном A100 под тем же протоколом. EurekAgent обнаружила четыре решения, которые стабильно обгоняют все leaderboard-скрипты. Лучшее решение достигает медианного времени 2005 микросекунд, что на 4.3% быстрее сильнейшего leaderboard-решения и на 10.8% быстрее системы TTT-Discover, которая использует test-time training. При этом все четыре лучших решения EurekAgent держатся ниже 2031 микросекунды — это говорит о стабильной оптимизации, а не об одиночном удачном выбросе.
Машинное обучение: Kaggle-стиль без Kaggle-цен
В ML-инжиниринге EurekAgent протестировали на семи соревнованиях из MLE-Bench Lite — реальных задачах с медалями, как на Kaggle. Система достигла 85.71% any-medal rate — выше, чем у AIBuildAI на Claude Opus 4.6 (71.43%) и Famou-Agent на Gemini-2.5-Pro (71.43%). Золотых медалей — 71.43%, и 100% решений оказались выше медианы. Важно: все конкурирующие системы используют закрытые коммерческие модели, а EurekAgent работает с open-source GLM-5.1. Это означает, что инженерия среды компенсирует разрыв в сырой мощности модели.
Почему это меняет правила
Главный вывод работы — бутылочное горлышко автономных исследований смещается. Ещё год назад основной вопрос звучал так: «Какая модель способна к автономному исследованию?» Сегодня, когда GLM-5.1 — open-source модель без дообучения — обгоняет Claude Opus и Gemini в научных задачах при правильной среде, вопрос меняется на: «Как устроить среду, чтобы агент исследовал системно, а не блуждал?»
Это хорошая новость для практиков. Инженерия среды — это не требует миллионов долларов на дообучение фундаментальных моделей. Это требует продуманной архитектуры изоляции, логирования, бюджетного контроля и человеческого интерфейса. EurekAgent открывает исходный код, что означает: любая исследовательская группа может адаптировать четыре принципа под свои задачи — будь то оптимизация химических реакций, поиск архитектур нейросетей или генерация тестовых сценариев.
Как устроен цикл исследования
Технически EurekAgent работает через повторяющийся цикл из трёх этапов. На этапе подготовки среда инициализирует рабочее пространство, загружает начальный код и формулирует задачу для агента. Затем следует этап предложения: одна сессия генерирует гипотезу и план реализации. После этого запускается до P параллельных сессий реализации, каждая из которых пытается воплотить предложенный подход. Когда все сессии завершаются или исчерпывают бюджет, среда автоматически ранжирует все валидные решения по скору и обновляет общую историю. Следующий раунд начинается с этой истории — агент видит, какие подходы уже пробовали и какие из них оказались лучшими. Это создаёт эффект накопления: каждый новый раунд стартует с более высокой базовой линии, а не с нуля.
Важно, что среда не говорит агенту, как решать задачу — она говорит, что нужно сделать, предоставляет инструменты и ограничивает ресурсы. Агент сам решает, использовать ли веб-поиск через MCP-сервер, запускать ли код локально, или искать примеры на GitHub через Playwright. Это разграничение между «внешней средой» и «внутренним агентом» позволяет менять CLI-агентов без переписывания всей системы — достаточно адаптировать интерфейс среды под новый инструмент.
Часто задаваемые вопросы
Чем EurekAgent отличается от The AI Scientist или AlphaEvolve?
The AI Scientist и AlphaEvolve явно программируют исследовательский цикл: эволюция, мутация, отбор. EurekAgent не задаёт workflow напрямую — он создаёт среду, в которой стандартный CLI-агент сам организует исследование. Разница между «прописать каждый шаг» и «создать условия, где агент шагает сам» — это именно сдвиг парадигмы, который авторы называют environment engineering. AlphaEvolve требует специализированных эволюционных операторов для каждой задачи, а EurekAgent использует один и тот же трёхэтапный цикл для математики, GPU-ядер и машинного обучения.
Может ли EurekAgent работать с другими моделями?
Да. В статье используется GLM-5.1 как базовый LLM и Claude Code как CLI-агент, но архитектура не привязана к конкретной модели. Главное — чтобы среда обеспечивала изолированную оценку, общую память артефактов и бюджетный контроль. С более мощной моделью результаты, вероятно, будут ещё лучше, но сам принцип работает и с open-source решениями. Авторы специально выбрали GLM-5.1, чтобы доказать, что среда важнее модели.
Почему результаты такие дешёвые — $11 за state-of-the-art?
Низкая стоимость — следствие двух факторов. Во-первых, GLM-5.1 — open-source модель, что снижает API-cost по сравнению с проприетарными API. Во-вторых, инженерия бюджета предотвращает бесконечный перебор: агент знает, что ресурсы ограничены, и среда ранжирует предыдущие попытки, чтобы каждый новый раунд начинался с лучших наработок, а не с нуля. Это уменьшает количество бесполезных итераций. В сравнении, проприетарные системы вроде TTT-Discover требуют test-time training, что дороже и масштабируется хуже.
Что такое «reward hacking» и почему permissions engineering его предотвращает?
Reward hacking — это когда агент находит способ получить высокий скор, не решая реальную задачу. Классический пример: агент видит, что evaluator проверяет только определённый тестовый случай, и подстраивает решение исключительно под него. Permissions engineering решает это через строгую изоляцию: скрытый evaluator работает в отдельном окружении, агент не видит тестовых данных и получает только числовой скор. Без доступа к внутренней логике оценки агент вынужден искать общее решение, а не эксплуатировать конкретные тесты.
Итог
EurekAgent демонстрирует, что автономные научные открытия уже не фантастика и не привилегия лабораторий с доступом к закрытым моделям. За $11 open-source система ставит рекорды в математике, обгоняет leaderboard в оптимизации GPU-ядер и берёт золотые медали в ML-соревнованиях. Секрет не в волшебной модели, а в четырёх механизмах среды: изоляции оценки, коллективной памяти артефактов, бюджетного контроля и человеческого надзора. Если вы думаете о том, как автоматизировать исследования в своей области — начните не с выбора LLM, а с проектирования среды, в которой агент будет работать.