17.05.2026 Исследования

MeMo: почему память LLM должна быть отдельной моделью

Что происходит, когда языковая модель сталкивается с вопросом о событии, которое произошло после её обучения? Она либо признаёт незнание, либо галлюцинирует. Дообучение всей модели стоит миллионы долларов. RAG спасает в простых случаях, но теряется, когда ответ требует связать факты из десятка документов, а не найти один абзац. Исследователи из нескольких университетов предложили третий путь — MeMo (Memory as a Model): отдельная маленькая модель, которая запоминает корпус документов и отвечает на вопросы основной LLM, не требуя доступа к её весам.

Что такое MeMo

MeMo — это модульный фреймворк для интеграции новых знаний в большие языковые модели без изменения их параметров. Вместо того чтобы дообучать 32-миллиардную модель или прикручивать векторное хранилище, авторы предлагают обучить отдельную модель памяти (Memory model) на синтетических вопросно-ответных парах, сгенерированных из целевого корпуса. Основная модель (Executive model) остаётся замороженной и обращается к памяти через структурированный многоходовой протокол.

Ключевое отличие от RAG в том, что Memory model не извлекает фрагменты текста, а параметрически интернализует знания. На этапе обучения она видит вопросы и ответы, но не видит исходные документы. Это заставляет её запоминать факты, а не копировать текст. На этапе инференса она отвечает на вопросы Executive model, используя только то, что усвоила во время обучения. Результат — ответы, не привязанные к длине контекстного окна и не зависящие от качества ретривера.

Ещё одно важное свойство — стоимость инференса не зависит от размера корпуса. В классическом RAG каждый новый документ увеличивает векторное хранилище и замедляет ретривал. В MeMo размер корпуса влияет только на этап обучения Memory model. После обучения она отвечает на вопросы за фиксированное время, независимо от того, было в корпусе сто документов или сто тысяч. Для корпоративных баз знаний, которые растут ежедневно, это архитектурное преимущество.

Почему существующие подходы застряли

Retrieval-Augmented Generation, или RAG, стал индустриальным стандартом для обновления знаний LLM. Но у него есть три системных ограничения. Первое — контекстное окно: даже если ретривер нашёл 10 релевантных фрагментов, модель может не уместить их в лимит токенов или потерять связи между ними. Второе — шум ретривала: нерелевантные документы попадают в контекст и сбивают генерацию. Третье — отсутствие кросс-документных связей: RAG хорошо находит факты внутри одного документа, но плохо синтезирует информацию из нескольких источников.

Параметрические методы вроде дообучения или адаптеров решают проблему шума, но создают новую — катастрофическое забывание. Когда модель учит новые факты, она часто затирает старые. Кроме того, дообучение требует доступа к весам, что закрывает дверь для проприетарных API-моделей вроде Gemini или Claude. MeMo обходит обе проблемы: память изолирована в отдельной модели, а Executive model может быть любой — открытой или закрытой.

Как устроен пайплайн MeMo

Процесс делится на две фазы — обучение и инференс. На этапе обучения авторы строят синтетический датасет из целевого корпуса документов через пятиэтапный pipeline. Сначала генераторная модель извлекает факты из каждого документа. Затем консолидирует дубли, проверяет корректность, переписывает ответы для ясности и явно выделяет сущности. Пятый и самый важный шаг — кросс-документный синтез: генератор создаёт вопросы, для ответа на которые нужно связать факты из нескольких документов. Ни на одном этапе в сгенерированные пары не добавляются идентификаторы документов или водяные знаки, чтобы Memory model не могла списывать.

После генерации датасета Memory model обучается методом supervised fine-tuning. Она инициализируется маленькой предобученной моделью — например, Qwen2.5-1.5B-Instruct против 32B у Executive model — и оптимизируется по стандартной next-token loss, но только на токенах ответа. Важное ограничение: во время обучения она видит только вопрос и предыдущие токены ответа, но не исходный документ. Это принудительно переводит знания из текстовой формы в параметрическую.

Почему авторы выбрали именно SFT, а не более сложные техники вроде RLHF или DPO? Потому что задача Memory model не генерировать красивый текст, а точно воспроизводить факты. Next-token prediction на чистых QA-парах даёт предсказуемое поведение: модель учится отвечать на вопрос, который она видела, и признавать незнание, если вопрос выходит за рамки обучающего датасета. Это упрощает отладку и делает поведение системы интерпретируемым.

На этапе инференса Executive model обращается к Memory model через трёхстадийный протокол. Стадия 1 — Grounding: Executive декомпозирует сложный вопрос на атомарные подвопросы, каждый из которых нацелен на одно ограничение. Memory отвечает на каждый независимо, давая контекстные зацепки. Стадия 2 — Идентификация сущностей: Executive использ grounding-ответы, чтобы сформулировать уточняющие вопросы о конкретных сущностях. Стадия 3 — Синтез: на основе всех предыдущих ответов Executive формулирует финальный вопрос, а Memory даёт итоговый ответ. Каждая стадия использует свою температуру сэмплирования и свой бюджет взаимодействий, чтобы балансировать между точностью и креативностью.

Результаты: где MeMo выигрывает и где уступает

Авторы оценили MeMo на трёх бенчмарках: BrowseComp-Plus, NarrativeQA и MuSiQue. BrowseComp-Plus тестирует способность модели искать информацию в вебе через браузер. NarrativeQA требует понимания длинных литературных текстов с множеством персонажей и сюжетных линий. MuSiQue — многоходовой вопросно-ответный бенчмарк, где каждый вопрос требует связать факты из 2–4 документов.

На NarrativeQA MeMo показал впечатляющие 26,85% с моделью Qwen2.5-32B-Instruct и 53,58% с Gemini-3-Flash — существенно превосходя все бейзлайны. Это особенно значимо, потому что NarrativeQA — самый сложный из трёх бенчмарков: он требует рассуждений над длинными пассажами со сложными связями, где методы на основе ретривала упираются в ограничения контекстного окна и не способны синтезировать информацию между далёкими фрагментами. MeMo захватывает эти связи на этапе обучения через reflection QA и извлекает их через многоходовой протокол на инференсе.

На MuSiQue картина похожая: 48,30% и 58,70% соответственно. Бейзлайны на основе ретривала застревают на многошаговом рассуждении между независимо извлечёнными пассажами, а MeMo, благодаря параметрическому хранению знаний, свободно перемещается между фактами. На BrowseComp-Plus MeMo лидирует с Gemini-3-Flash (66,67%), но с Qwen2.5-32B-Instruct уступает HippoRAG2: 54,22% против 56,11%. Авторы объясняют это природой бенчмарка: ответы в BrowseComp-Plus часто отсутствуют в обучающем корпусе, и здесь преимущество у методов, которые умеют искать в открытом вебе, а не воспроизводить запомненные факты.

Что меняет размер модели памяти

Авторы провели абляцию, сравнивая Memory model размером 1,5B и 14B параметров в семействе Qwen2.5. Результат ожидаемый, но с нюансами: большая модель памяти даёт прирост на всех бенчмарках, но величина прироста зависит от задачи и от силы Executive model. На NarrativeQA разрыв между 1,5B и 14B заметно расширяется, а на BrowseComp-Plus и MuSiQue — сужается. Это говорит о том, что взаимодействие между рассудочной способностью Executive model и ёмкостью Memory model не линейно: где-то узким местом становится память, а где-то — способность основной модели задавать правильные вопросы.

Другой важный вывод — устойчивость к шуму. Авторы добавляли в обучающий датасет нерелевантные документы и измеряли деградацию. MeMo оказался существенно более робастным, чем RAG-бейзлайны: параметрическое хранение знаний фильтрует шум на этапе обучения, тогда как RAG подвержен ему на каждом запросе. Для реальных приложений, где корпус документов неидеален и содержит устаревшие или противоречивые данные, это критическое преимущество.

Continual learning без забывания

Одна из самых привлекательных особенностей MeMo — возможность непрерывного обновления знаний через слияние моделей (model merging). Когда появляется новый корпус документов, можно обучить отдельную Memory model на нём и затем слить её с существующей через техники вроде Task Arithmetic или TIES-Merging. При этом Executive model остаётся нетронутой, а старые знания в первой Memory model не стираются — они усредняются с новыми.

Эксперименты показали, что слияние двух Memory model даёт производительность, сопоставимую с переобучением с нуля на объединённом корпусе. Это открывает путь к сценариям, где разные команды обучают Memory model на своих доменных данных, а затем централизованно объединяют их. Медицинская память, юридическая память, финансовая память — каждая в своей маленькой модели, а потом в одной общей.

Сравните это с классическим дообучением. Когда вы дообучаете LLM на новых данных, вы рискуете затереть старые знания. Даже техники вроде replay-буферов или EWC требуют хранить образцы старых данных и усложняют pipeline. В MeMo старые и новые знания живут в разных моделях до момента слияния, и само слияние — это одна арифметическая операция над весами, не требующая данных. Это не просто удобство, а принципиально другой уровень модульности.

Часто задаваемые вопросы

Чем MeMo отличается от обычного RAG?

RAG извлекает текстовые фрагменты из корпуса и вставляет их в контекст модели. MeMo обучает отдельную модель запоминать факты параметрически и отвечать на вопросы без доступа к исходным документам. Это делает MeMo устойчивее к шуму ретривала и способнее к кросс-документному синтезу, но менее эффективным, когда ответа нет в обучающем корпусе.

Можно ли использовать MeMo с проприетарными моделями вроде GPT-4 или Claude?

Да, и это одно из ключевых преимуществ. Поскольку Executive model не обучается и не требует доступа к своим весам, MeMo работает с любой LLM — открытой или закрытой. Достаточно, чтобы модель поддерживала многоходовой диалог через API.

Насколько велик обучающий датасет и сколько стоит обучение Memory model?

В работе использовались модели памяти от 1,5B до 14B параметров. Обучение такой модели на синтетическом датасете значительно дешевле полного дообучения 32B-модели. Точные цифры зависят от размера корпуса, но порядок — единицы или десятки GPU-часов против тысяч для полного fine-tuningа большой LLM.

Итог

MeMo предлагает радикально иначе подойти к проблеме памяти в больших языковых моделях. Вместо гонки за длиной контекста или дорогостоящего дообучения авторы показывают, что можно обучить отдельную компактную модель быть внешней памятью — и получить результаты, которые RAG не достигает на сложных многоходовых задачах. Особенно сильны показатели на NarrativeQA и MuSiQue, где кросс-документные связи критичны. Ограничение тоже понятно: MeMo не заменяет поиск в открытом вебе, а дополняет его. Для корпоративных баз знаний, медицинских архивов, юридических библиотек — доменов, где документы известны заранее и связи между ними важнее, чем свежесть — это один из самых интересных архитектурных ходов 2025 года.