EvoArena и EvoMem: почему LLM-агенты ломаются в меняющемся мире

EvoArena и EvoMem: почему LLM-агенты ломаются в меняющемся мире

В июне 2026 года команда исследователей из нескольких университетов опубликовала работу, которая ставит под вопрос базовую архитектуру современных LLM-агентов. EvoArena — первый масштабный бенчмарк, который оценивает агентов не в статических средах, а в условиях постоянной эволюции: API меняются, зависимости обновляются, кодовые базы растут, а предпочтения пользователей смещаются. Результат оказался неожиданным даже для скептиков: базовые агенты на передовых моделях достигают лишь 43% точности на терминальных задачах, 29% на эволюции программного кода и 46% на отслеживании меняющихся предпочтений. При этом цепочная точность — когда агент должен решить все версии задачи подряд — падает до катастрофических 21%, 10% и 39% соответственно.

Что делает эти цифры особенно тревожными, так это то, что они получены на GPT-5.5, Gemini-3.1-Pro, Kimi-K2.6 и Qwen3.6-27B — моделях, которые в статических бенчмарках показывают результаты, близкие к человеческим. Разрыв между статической и динамической производительностью настолько велик, что авторы работы предлагают новую архитектуру памяти — EvoMem — которая записывает не только текущее состояние знаний, но и историю их изменений.

Что такое EvoArena

EvoArena — это набор из трёх комплементарных бенчмарков, каждый из которых моделирует свой тип «дрейфа» среды, с которым сталкиваются реальные агенты.

Terminal-Bench-Evo тестирует эволюцию исполняемых рабочих процессов. Авторы взяли 89 исходных задач из Terminal-Bench — типичных сценариев терминальной работы: системное администрирование, безопасность, data science, научные вычисления. Каждую задачу они превратили в цепочку из 4–5 версий, где каждая следующая версия меняет интерфейс, зависимости, пути, протоколы или правила валидации. В итоге получилось 352 эволюционированных версии плюс 89 исходных — 441 задача суммарно. Самая частая причина изменения — смена I/O или протокола (49%), за ней следуют изменения рабочего пространства (13%), CLI/API (10%), зависимостей (8%) и семантических правил (5%).

SWE-Chain-Evo моделирует эволюцию программного кода. В отличие от классического SWE-bench, где каждая задача — независимый баг в статическом срезе репозитория, SWE-Chain-Evo строит цепочки из 4–5 связанных milestone'ов. Каждый milestone зависит от предыдущих: API, зависимости, тесты и реализация накапливаются. Агент не может просто исправить один баг — он должен понимать, как предыдущие изменения повлияли на текущее состояние кодовой базы.

PersonaMem-Evo тестирует эволюцию пользовательских предпочтений через долгие диалоги. Каждая персона содержит в среднем 597 сообщений и 174,7 тысяч токенов истории. Вопросы делятся на четыре типа: single-pattern transfer (применить одно предпочтение в новом контексте), conflict resolution (разрешить конфликт двух предпочтений), multi-pattern synthesis (синтезировать решение из трёх сигналов) и temporal trajectory (отследить, как предпочтение менялось со временем — от 2 до 10 источников, в среднем 6,2). Temporal trajectory — самый сложный тип, потому что требует восстановления промежуточных состояний, а не только финального.

Почему агенты ломаются в эволюционирующих средах

Авторы протестировали несколько агентных систем на разных моделях. Для Terminal-Bench-Evo использовался Terminus2, для SWE-Chain-Evo — OpenHands, для PersonaMem-Evo — A-Mem. Результаты показали систематическую деградацию при переходе от шаговой оценки к цепочной.

На Terminal-Bench-Evo базовые агенты достигли в среднем 43,6% шаговой точности. Но цепочная точность — где все версии задачи должны быть решены подряд — рухнула до 21,5%. Это означает, что агент может справиться с отдельной версией, но не способен поддерживать последовательную корректность через всю цепочку изменений.

На SWE-Chain-Evo ситуация ещё хуже: 29,2% шаговой точности и 10,6% цепочной. Программная эволюция оказалась самым сложным режимом, потому что каждый milestone накапливает технический долг: изменённые API, обновлённые зависимости, переработанные тесты. Агент, который не помнит, почему три версии назад поменялся интерфейс, не может корректно работать с текущей версией.

На PersonaMem-Evo результаты выше — 46,5% шаговой и 39,1% цепочной — но всё равно далеки от практической применимости. Особенно трудно агентам даётся temporal trajectory: отследить, как предпочтение пользователя эволюционировало через десятки сообщений, когда промежуточные сигналы разбросаны по всей истории.

Как работает EvoMem

EvoMem — это не замена существующим системам памяти, а надстройка. Её ключевая идея: память агента должна хранить не только текущее состояние знаний, но и историю изменений — что поменялось, почему поменялось, и когда старое состояние может быть всё ещё актуальным.

Традиционные системы памяти работают по принципу «последнее записанное — истина». Когда агент узнаёт новое правило, он перезаписывает старое. Это работает в статических средах, но в эволюционирующих мирах приводит к катастрофе: новое правило для версии 5 может стереть правило, которое всё ещё нужно для версии 3. Или, что ещё хуже, агент забудет контекст, в котором старое правило работало, и не сможет восстановить его при откате или при работе с устаревшей системой.

EvoMem решает эту проблему через два механизма. Первый — запись патчей. Когда базовый агент обновляет память, EvoMem перехватывает это обновление и записывает не только новое состояние, но и разницу: что было раньше, что стало сейчас, что вызвало изменение, и при каких условиях старое состояние может быть ещё валидно. Эти патчи хранятся как явная история эволюции, а не как побочный эффект логирования.

Второй — патч-аугментированный ретривал. Когда агент сталкивается с запросом, который может зависеть от устаревших состояний, временных изменений или версионно-специфичного поведения, EvoMem извлекает не только текущую память, но и релевантные исторические патчи. Это позволяет агенту понять, что правило поменялось, и почему текущее поведение может отличаться от ожидаемого.

Важно, что EvoMem не требует переписывания базового агента. Она работает как обёртка: базовый updater остаётся без изменений, а EvoMem дополняет его патч-записью и ретривалом. Это делает архитектуру совместимой с существующими агентными системами — Terminus2, OpenHands, A-Mem, Memento-Skill — и разными языковыми моделями.

Результаты: насколько EvoMem помогает

Авторы протестировали EvoMem на пяти моделях: GPT-5.5, GPT-5.4-mini, Gemini-3.1-Pro, Qwen3.6-27B и Kimi-K2.6. Результаты показывают систематическое улучшение, но с интересными нюансами.

На Terminal-Bench-Evo шаговая точность выросла в среднем на 2,4%. Это скромный прирост, но цепочная точность — которая измеряет реальную надёжность — выросла на 6,1%. Для GPT-5.5 это означает переход с 31,8% до 45,5% цепочной точности, то есть почти полуторократное улучшение. Для Kimi-K2.6 прирост ещё более впечатляющий: с 14,9% до 22,7% — плюс 7,8 процентных пунктов. Для Gemini-3.1-Pro — с 39,3% до 44,1%, плюс 4,8 пунктов.

На SWE-Chain-Evo приросты скромнее: в среднем 0,5% на шаговой точности и 1,3% на цепочной. Программная эволюция остаётся самым трудным режимом, и EvoMem не полностью решает проблему накопления технического долга. Но даже здесь цепочная точность для GPT-5.5 выросла с 10,2% до 11,9%, а для Kimi-K2.6 — с 7,1% до 8,4%.

На PersonaMem-Evo EvoMem улучшила общую точность с 40,5% до 42,5%. Но настоящий интерес — в разбивке по типам вопросов. Temporal trajectory и multi-pattern synthesis, которые требуют отслеживания разбросанных во времени сигналов, улучшились на 5,2% каждый. При этом conflict resolution и single-pattern transfer показали небольшое снижение. Авторы объясняют это тем, что патч-память улучшает доступность доказательств, но финальный шаг рассуждения — разрешение конфликтов или применение редких предпочтений — остаётся бутылочным горлышком.

Интересно, что на более сильной модели (GPT-5.5) патч-память даёт ещё больше. Multi-pattern synthesis улучшился на 8,6%, conflict resolution — на 7,6%. Это говорит о том, что EvoMem не просто компенсирует слабость модели, а раскрывает потенциал сильных моделей, давая им больше контекста для сложных рассуждений.

Когда EvoMem помогает больше всего

Авторы провели детальный механизмный анализ, чтобы понять, в каких условиях патч-память действительно меняет поведение агента. Они выделили четыре фактора.

Patch example retrieval — извлекается ли хотя бы один явный пример перехода из EvoMem. Этот пример описывает: какое требование было раньше, какое стало сейчас, и какая адаптация была сделана. Если такой пример не извлекается, EvoMem не может помочь.

Evolved-requirement coverage — появляются ли изменённые требования из EvoMem в последующих рассуждениях или командах агента. Это измеряет, замечает ли агент текущие ограничения новой версии.

Patch uptake — использует ли агент терминологию из извлечённых патчей в своём планировании. Это показывает, интегрируется ли историческая адаптация в стратегию агента.

Command-level patch uptake — самый строгий критерий: появляется ли информация из патчей в конкретных shell-командах, которые агент выполняет. Это измеряет, влияет ли патч-память на реальные действия, а не только на рассуждения.

Результаты показали, что прирост EvoMem коррелирует с этими факторами: чем больше патч-информация проникает в поведение агента, тем больше улучшение. Это подтверждает, что EvoMem работает не как магическая «память-на-все-случаи», а как инструмент, который помогает при условии, что агент умеет использовать извлечённую информацию.

Часто задаваемые вопросы

Чем EvoArena отличается от существующих бенчмарков?

Большинство бенчмарков для агентов — WebArena, SWE-bench, GAIA, AgentBench — оценивают агентов на статических снимках сред. Задача фиксирована, интерфейс не меняется, успешный критерий определён раз и навсегда. EvoArena — первый бенчмарк, который оценивает постоянную эволюцию: одна и та же среда меняется через версии, и агент должен отслеживать изменения, адаптироваться и сохранять поведение, которое остаётся валидным.

Можно ли использовать EvoMem с существующими агентами?

Да. EvoMem спроектирована как надстройка, а не как замена. Базовый updater памяти остаётся без изменений, а EvoMem добавляет патч-запись и патч-ретривал. Авторы продемонстрировали интеграцию с Terminus2, OpenHands, A-Mem и Memento-Skill на моделях GPT-5.5, Gemini-3.1-Pro, Kimi-K2.6 и Qwen3.6-27B.

Почему приросты кажутся скромными — 2–6%?

Шаговые приросты действительно скромные, но цепочные приросты значительнее — до 13,7 процентных пунктов для GPT-5.5 на Terminal-Bench-Evo. Более того, в реальном мире агенты работают именно в цепочном режиме: API меняется непрерывно, кодовая база эволюционирует, пользовательские предпочтения смещаются. Шаговая точность измеряет способность решить одну версию задачи, но цепочная точность измеряет надёжность — а это то, что нужно в production.

Итог

EvoArena и EvoMem ставят важный вопрос: мы строим агентов для мира, который не существует. Статические бенчмарки создают иллюзию компетентности, но реальные среды — терминалы, кодовые базы, пользовательские интерфейсы — меняются постоянно. Разрыв между 90%+ точностью на статических задачах и 21% цепочной точностью на эволюционирующих задачах показывает, что текущие агенты ещё далеки от надёжного deployment.

EvoMem предлагает практический путь вперёд: вместо того чтобы переписывать всю архитектуру агента, добавьте патч-память, которая хранит историю изменений. Это не решает все проблемы — программная эволюция остаётся особенно сложной — но даёт измеримый прирост в тех сценариях, где агенты больше всего нуждаются в помощи: отслеживание временных изменений, синтез разбросанных сигналов и сохранение контекста через версии.

Для инженеров, строящих агентные системы, вывод прост: тестируйте не только на статических задачах, но и на цепочках изменений. Для исследователей — открытое поле для улучшения механизмов памяти, которые умеют работать с эволюционирующими, а не только накопительными знаниями. И для всех, кто следит за развитием AI: следующий прорыв в агентных системах, вероятно, придёт не от новой модели, а от новой архитектуры памяти.

← Все записи