Проклятие памяти LLM-агентов: почему большой контекст разрушает доверие
В 2024 году казалось само собой разумеющимся: чем больше контекст у LLM-агента, тем лучше он координируется с другими агентами. Больше памяти — больше доверия, точнее стратегия, глубже взаимопонимание. Но недавнее исследование группы из Duke и Carnegie Mellon (arXiv:2605.08060) ставит этот тезис с ног на голову. Авторы обнаружили эффект, который они назвали Memory Curse — «проклятие памяти»: расширение истории взаимодействий систематически разрушает кооперацию между LLM-агентами, а не укрепляет её.
Это не абстрактная теория. В 2025 году мультиагентные системы уже управляют CI/CD пайплайнами, торгуют криптовалютой, планируют логистику и ведут переговоры от имени пользователей. Каждый из этих сценариев — социальная дилемма в миниатюре: сотрудничать или защищаться? Доверять или контролировать? Исследование показывает, что наивное увеличение контекста может превратить коллаборативных агентов в параноидальных одиночек.
Что такое Memory Curse
Memory Curse — это поведенческая деградация мультиагентных LLM при увеличении длины доступной истории взаимодействий. Классическая теория игр утверждает: без памяти невозможна реципрокность, а значит, и устойчивое сотрудничество. Логично предположить, что чем больше раундов помнит агент, тем лучше он строит долгосрочные стратегии. Однако эксперименты на семи моделях — от Mistral-7B до Llama-3.3-70B и GPT-OSS-20B — показали обратное. В 18 из 28 конфигураций «модель + игра» увеличение контекста приводило к обвалу кооперации.
Например, GPT-OSS-20B в классической дилемме заключённого сотрудничал в 92,1% раундов при короткой памяти, но при длинной истории в 80 раундов этот показатель рухнул до 20,6%. Llama-4-Scout-17B в игре с общественным благом потерял почти половину кооперации: с 82,6% до 45,8%. Это не случайные флуктуации — системная закономерность, воспроизведённая на четырёх разных социальных дилеммах с 500 раундами в каждой.
Экспериментальная установка была жёсткой: двое или трое агентов, созданных из одной модели, играли одну из четырёх игр — дилемму заключённого, дилемму путешественников, игру с общественным благом и доверительную игру. Каждый раунд продолжался с вероятностью 99%, вплоть до 500 раундов. Температура генерации — 0,7, максимальная длина ответа — 2000 токенов. Агенты знали правила, знали, что игра повторяется, и видели фиксированное число последних раундов — от нуля до восьмидесяти. Это позволило изолировать эффект памяти от всех остальных переменных.
Почему длинная память убивает доверие
Авторы выделили три механизма, через которые Memory Curse проявляется в рассуждениях агентов.
Первый — «историческое переобучение». Когда контекстное окно расширяется, в него неизбежно попадает шум: случайная ошибка партнёра, однократное отклонение от сотрудничества, внешнее возмущение. В короткой памяти такой шум быстро забывается, и агенты возвращаются к конструктивному взаимодействию. В длинной памяти запись об оборонительной реакции сохраняется десятки раундов, превращаясь в самовыполняющееся пророчество: «он меня предал → я защищаюсь → он видит мою защиту и тоже защищается → цикл мести замкнулся».
Второй — когнитивная дивергенция. Исследователи проанализировали chain-of-thought логи агентов и выделили две категории рассуждений: forward-looking (планирующие будущее) и backward-looking (опирающиеся на прошлое). В «иммунных» к проклятию моделях — тех, что сохраняли кооперацию при любой длине истории — доля forward-looking рассуждений оставалась высокой даже при 80 раундах памяти. В уязвимых моделях расширение контекста вытесняло проактивное мышление оборонительным. Агенты переставали думать «как наладить сотрудничество» и начинали думать «как не дать себя обмануть».
Третий — семантический сдвиг. Авторы построили словари параноидальной лексики (betray, risk, exploit) и кооперативной (trust, sustain, mutual benefit). Оказалось, что абсолютная частота оборонительных слов не растёт с увеличением памяти. Но относительная доля параноидальных конструкций растёт, потому что кооперативные рассуждения исчезают быстрее. Расширенный контекст просто вытесняет способность агента представлять себе взаимную выгоду.
Чтобы убедиться, что дело именно в когнитивном стиле, а не в архитектуре, авторы провели тонкую лексическую классификацию рассуждений. Они вручную разметили тысячи reasoning traces и обучили классификатор, который отличал forward-looking от backward-looking мышления с высокой точностью. Результат был однозначен: в уязвимых моделях при увеличении памяти с 3 до 80 раундов доля forward-looking рассуждений падала в среднем на 34 процентных пункта, тогда как в иммунных моделях — лишь на 8.
Асимметрия памяти: трагедия перегиба
Один из самых неожиданных результатов — эксперимент с асимметричной памятью. Исследователи заставили агентов с короткой памятью (3 раунда, «прощающие») играть против агентов с длинной памятью (80 раундов, «обиженные»). Оказалось, что «обиженный» — это токсичный компонент системы: его личная кооперация падает ниже симметричного基线а, а присутствие даже одного такого агента в трёхсторонней игре с общественным благом вызывает социальную заразу недоверия. Другие игроки, изначально готовые к сотрудничеству, втягиваются в цикл наказаний.
При этом «прощающий» агент, даже оказавшись в меньшинстве среди двух «обиженных», сохранял высокую кооперацию. Короткая память работает как функциональный механизм прощения: агент буквально не помнит старых обид, поэтому не мстит. Это открывает неочевидный инженерный вывод: иногда забывать стратегически выгоднее, чем помнить всё.
Асимметричный эксперимент также показал, что социальная зараза недоверия распространяется быстро. В трёхсторонней игре с общественным благом замена одного «прощающего» агента на «обиженного» снижала групповую кооперацию на 20–40 процентных пунктов. Замена второго — ещё на 15–25. При этом одинокий «прощающий» в окружении двух «обиженных» продолжал сотрудничать в 70–80% раундов, демонстрируя удивительную когнитивную устойчивость. Его ограниченная память защищала от эмоционального заражения.
Можно ли вылечить проклятие
Авторы провели два критических эксперимента, чтобы понять, является ли Memory Curse фундаментальным ограничением архитектуры или поведенческим артефактом.
Санитизация памяти. В доверительной игре исследователи заменили 80% записей истории синтетическими записями о взаимном сотрудничестве, оставив лишь 20% реальных данных. Кооперация восстановилась почти полностью. Это доказывает: проблема не в длине контекста как таковой, а в содержимом — накопленных негативных эпизодах. Если бы дело было в архитектуре, подмена содержимого не помогла бы.
LoRA-интервенция. Исследователи взяли Mistral-7B, которая вела себя как «Memory Cursed» во всех играх, и дообучили на корпусе forward-looking рассуждений из дилеммы общественного благa. Результат был поразительным: кооперация взлетела на 14,7–79,3 процентных пункта в зависимости от игры. Причём дообученная модель обобщила новое поведение на три другие игры, в которых её не тренировали. Это говорит о том, что «проклятие» — не аппаратная неизбежность, а рассудочная привычка, которую можно переучить.
Интересно, что дообучение не ухудшило базовые способности модели: на GSM8K, TriviaQA, HumanEval и MBPP результаты остались на уровне или даже немного улучшились. Переориентация на forward-looking мышление оказалась не компромиссом, а бонусом. Это важный сигнал для практиков: обучение агентов сотрудничеству не обязательно снижает их индивидуальную компетентность.
Авторы также проверили, не является ли Memory Curse просто побочным эффектом chain-of-thought. Они убрали явное рассуждение и заставили агентов выдавать только финальное действие. В большинстве случаев это частично смягчило проклятие: без вербализации опасений агенты меньше зацикливались на них. Однако полностью проблема не исчезла — механизм глубже, чем просто эффект вербализации. CoT усиливает Memory Curse, но не является его единственной причиной.
Почему это важно для инженеров
Работа имеет прямое отношение к проектированию агентных систем. Сегодня стандартный подход к мультиагентным архитектурам — дать агентам доступ к полной истории взаимодействий, логам разговоров, трассировкам ошибок. Исследование 2605.08060 показывает, что такой подход может быть контрпродуктивным.
Вместо необузданного накопления контекста архитекторам стоит задуматься о избирательном забвении: механизмах, которые автоматически архивируют или обобщают старые конфликтные эпизоды, не позволяя им отравлять текущее взаимодействие. Это может быть стратегическая суммаризация памяти, retrieval-augmented generation с фильтрацией по тональности, или явные «периоды амнистии», когда агенты договариваются сбросить историю и начать с чистого листа.
Другой практический вывод касается архитектуры мультиагентных систем. Если в команде агентов присутствуют «обиженные» экземпляры с полной историей, они становятся токсичными для всей группы. Решение — либо унифицировать длину памяти, либо изолировать «тяжёлую» память в отдельные модули, которые не имеют прямого доступа к текущему decision-making. Например, система может иметь «историка» — агента, который анализирует долгосрочные паттерны, но не участвует в ежедневных решениях, — и «оператора» — агента с короткой памятью, который действует здесь и сейчас.
Также стоит пересмотреть роль chain-of-thought в агентных системах. Авторы обнаружили, что отключение явного рассуждения (CoT) частично смягчает Memory Curse. Когда агент не вынужден вербализовать свои опасения, он меньше зацикливается на них. Это не значит, что CoT бесполезен — но его стоит комбинировать с механизмами, предотвращающими эхо-камеру оборонительных мыслей. Например, можно требовать от агента сначала сформулировать потенциальные выгоды сотрудничества, и лишь затем — риски. Такая структура prompt'а смещает когнитивный фокус в сторону forward-looking мышления.
Часто задаваемые вопросы
Memory Curse проявляется только в игровых сценариях?
Нет. Хотя эксперименты проводились на классических социальных дилеммах, механизм универсален: любая мультиагентная система, где агенты видят полную историю взаимодействий и имеют стимул к самозащите, подвержена риску. Это относится и к коллаборативным AI-ассистентам, и к автономным агентам в открытых средах.
Все LLM подвержены проклятию одинаково?
Нет. Из 28 протестированных конфигураций 10 оказались «иммунными» — они сохраняли кооперацию при любой длине истории. Ключевой фактор иммунности — способность к forward-looking рассуждениям. Модели, которые при длинном контексте продолжают думать о будущих выгодах сотрудничества, а не о прошлых обидах, устойчивы к проклятию. Это открывает путь к целенаправленному обучению и prompt-инжинирингу.
Может ли увеличение модели решить проблему?
Частично, но не гарантированно. Llama-3.3-70B и Qwen2.5-Coder-32B показали устойчивость, но GPT-OSS-120B в некоторых играх деградировал. Размер — не единственный фактор. Важнее архитектура рассуждений и способность модели к проактивному, а не реактивному мышлению.
Итог
Исследование Memory Curse меняет базовую интуицию о проектировании мультиагентных систем. Длинный контекст — не однозначное благо. В социальных дилеммах он превращается в токсин, который отравляет доверие и заставляет агентов зацикливаться на самозащите. Лечение возможно: избирательная санитизация памяти, обучение forward-looking рассуждениям и архитектурные ограничения на оборонительные эхо-камеры. Для архитекторов агентных систем это означает один простой вывод: иногда меньше памяти — больше сотрудничества.