30.06.2026 Исследования

WorldEvolver: самоэволюционирующие модели мира для LLM-агентов

LLM-агенты умеют запоминать, но не умеют предвидеть. Они используют память прошлых взаимодействий — retrieval-based RAG, skill libraries, persistent context — но не моделируют последствия действий до их совершения. Мир моделей (world models) обещают это исправить: аналог model-based RL, где агент предсказывает результат действия, прежде чем его выполнить.

Проблема в том, что такие предсказания часто ошибаются. А ненадёжный foresight хуже, чем его отсутствие — агент может проигнорировать предупреждение или, что хуже, принять неверное предсказание как руководство к действию.

Именно эту проблему решает WorldEvolver — фреймворк от исследователей из National University of Singapore, SUTD и Singapore Management University, представленный в июне 2026 года.

Что такое модель мира и зачем она агенту

Модель мира — это обученная или настроенная система, которая предсказывает, что произойдёт, если агент совершит действие. В отличие от memory-based подходов (RAG, persistent context), world model работает как симуляция: «если я открою дверь ключом, а не ломом — что будет?» Агент получает foresight — возможность заглянуть в будущее до выполнения действия.

В существующих работах world models используются для next-state prediction в веб-навигации, one-step visual lookahead, предсказаний перед ReAct-style действиями и task knowledge models для текстовых игр. Но все они страдают от одной фундаментальной проблемы: модели мира на деплое ненадёжны.

Ненадёжность проявляется в трёх формах. Модель может предсказать состояние, которого нет в реальности (галлюцинация). Модель может не уловить ключевой фактор, влияющий на результат (неполнота). Модель может дать уверенный ответ на вопрос, на который не знает ответа (калибровка). Все три случая приводят к тому, что агент либо игнорирует предсказание, либо действует на основе неверной информации.

WorldEvolver: три модуля решения

WorldEvolver — это не новая модель и не новый способ обучения. Это фреймворк, который работает на деплое и улучшает предсказания уже развёрнутой модели мира, не трогая ни веса агента, ни параметры модели мира. Авторы формулируют это explicitly: WorldEvolver revises its deployment-time context while keeping the downstream agent and all model parameters frozen. Это ключевое отличие от подходов, которые пытаются улучшить саму модель мира через дополнительное обучение.

Фреймворк состоит из трёх модулей, каждый из которых работает с отдельным типом памяти.

Episodic Memory — модуль, который эксплуатирует реальные переходы состояний. Вместо того чтобы полагаться только на предсказанные переходы, агент использует retrieval-based симуляцию: из памяти извлекаются похожие реальные траектории и их исходы. Если в прошлом агент открывал дверь ключом и дверь заклинило — Episodic Memory это запомнит и сигнализирует при повторной попытке. Механизм работает через similarity search по накопленным эпизодам: для каждого нового контекста система находит k ближайших похожих ситуаций из прошлого и извлекает их реальные исходы. Важно, что retrieved данные — это реальные наблюдения, а не предсказания, что устраняет propagation ошибок модели мира.

Semantic Memory — модуль, который извлекает устойчивые эвристические правила из mismatches между предсказаниями модели мира и реальными наблюдениями. Каждый раз, когда модель предсказала одно, а случилось другое, Semantic Memory фиксирует это несоответствие и выводит из него правило: «если объект X и состояние Y — правило Z». Правила персистентны и работают в новых контекстах, даже если текущая ситуация отличается от тех, где правило было выведено. Это принципиально отличается от episodic retrieval: Semantic Memory обобщает, а не просто запоминает. Правила хранятся в структурированном виде и применяются к новым ситуациям через pattern matching.

Selective Foresight — модуль фильтрации. Не все предсказания модели мира одинаково ценны. Selective Foresight оценивает confidence каждого предсказания на основе token-level probabilities и пропускает дальше в контекст агента только те, чья уверенность превышает порог. Низкоуверенные предсказания отбрасываются, не засоряя контекст агента и не рискуя ввести его в заблуждение. Это механизм калибровки — агент получает только те предсказания, в которых модель мира уверена. Порог — это гиперпараметр, который можно настраивать под конкретную задачу и модель.

Архитектура элегантна тем, что все три модуля работают совместно: Episodic Memory даёт конкретные траектории, Semantic Memory — обобщённые правила, Selective Foresight — механизм калибровки того, что попадает в итоговый контекст. Каждый модуль закрывает слабости остальных.

Как это работает на практике

Workflow агента с WorldEvolver выглядит так. Агент получает задачу — допустим, найти и переместить объект в текстовой среде. Прежде чем совершить действие, он запрашивает foresight у модели мира. WorldEvolver перехватывает предсказание и пропускает через три фильтра.

Сначала Episodic Memory проверяет, были ли похожие траектории в прошлом. Система ищет в памяти эпизоды с похожим состоянием среды и агента и извлекает их реальные исходы. Если нашлась релевантная траектория — агент получает не предсказанный, а реальный исход. Затем Semantic Memory применяет выведенные эвристики: «в этой среде объект X всегда в состоянии Y после действия Z». Наконец, Selective Foresight оценивает, достаточно ли агент уверен в предсказании, чтобы действовать на его основе.

Только если предсказание прошло все три фильтра, оно интегрируется в контекст агента и влияет на решение. В противном случае агент действует без учёта foresight. Это избегает ситуации, когда плохое предсказание хуже его отсутствия — агент не принимает некачественные данные за истину.

Эксперименты: где это тестировали

WorldEvolver оценивали на двух текстовых средах: ALFWorld (household tasks в текстовом формате, задачи типа «найди бокал и поставь на стол») и ScienceWorld (научные эксперименты в виртуальной лаборатории — смешивание жидкостей, нагрев объектов, измерение температуры). Это не случайный выбор: обе среды требуют многошагового планирования, где foresight критически важен, и обе предоставляют чёткие метрики успеха.

Предсказательную точность мир модели мерили на Word2World — специализированном бенчмарке для оценки качества предсказаний моделей мира. Агентскую производительность — на AgentBoard, стандартном бенчмарке для LLM-агентов с метриками success rate, efficiency и robustness. AgentBoard измеряет не только достижение цели, но и то, насколько эффективно агент это делает — количество шагов, использование подсказок, устойчивость к ошибкам.

В качестве backbone использовали три разные модели мира: DDPM-based (diffusion-based модель, которая предсказывает распределение следующих состояний через noise diffusion), GPT-2-based (языковая модель для генерации текстовых переходов) и Transformer-based. Это важно — фреймворк не привязан к конкретной архитектуре модели мира и работает поверх любой, что делает его универсальным инструментом.

Результаты на уровне мир модели показали, что WorldEvolver достигает наивысшей предсказательной точности на Word2World поверх всех трёх backbone. Механизмы памяти корректируют предсказания в сторону реальности даже когда базовая модель мира предсказывает плохо — episodic retrieval подтягивает конкретные исходы, semantic memory применяет выведенные правила.

На уровне агентской производительности WorldEvolver превосходит все world model baselines на AgentBoard. Агент с WorldEvolver показывает на 43.9% более высокий success rate по сравнению с базовым подходом, где агент получает unmodified foresight от модели мира без фильтрации. Это значительный прирост для задач long-horizon planning, где накапливающиеся ошибки предсказания могут полностью сбить агента с правильного пути.

Почему это важно

Современные LLM-агенты упираются в ceiling, который memory-based подходы не могут пробить. Агент помнит прошлые ошибки, но не учится предвидеть новые. World models обещали foresight, но на практике оказалось, что доверие к предсказаниям должно быть калибровано — нельзя просто интегрировать все предсказания в контекст.

WorldEvolver решает это через memory revision на деплое. Модель мира не переобучается — она адаптируется через два типа памяти, которые накапливают реальный опыт и выводят эвристики. Это принципиально другой подход: не «сделаем модель мира более точной» (что требует данных и вычислений), а «построим фильтр, который отсеивает плохие предсказания».

Разделение на Episodic Memory и Semantic Memory тоже важно. Episodic Memory хранит конкретные траектории — она полезна, когда текущая ситуация почти идентична прошлой. Semantic Memory обобщает — она работает, когда агент видит новую конфигурацию, но с знакомыми элементами. Вместе они покрывают больший диапазон ситуаций, чем любой из модулей по отдельности.

Для разработчиков это означает конкретный engineering implication: не нужно обучать свою модель мира с нуля. Можно взять любую существующую — open-source модель мира или API — и построить поверх WorldEvolver-подобную систему фильтрации. Три модуля — episodic retrieval, semantic rule extraction, confidence-based filtering — реализуемы отдельно и не требуют изменения базовой модели.

Ограничения

Авторы честно отмечают, что evaluate проводили только в текстовых средах. Веб-навигация, code generation, robotics и multimodal interaction остаются за кадром — это направление для будущих работ. Текстовые среды — это песочница, реальные задачи сложнее и требуют обработки непрерывных данных, а не discrete token sequences.

Второе ограничение — Selective Foresight полагается на token-level probabilities как confidence signal. Это работает для open-source моделей с доступом к логитам, но не применим напрямую к closed-model API, где такие сигналы недоступны. Для таких случаев авторы предлагают альтернативные estimators — self-consistency (несколько генераций одного и того же предсказания и сравнение согласованности) или similar, но это требует дополнительных вызовов модели и увеличивает latency.

Третье — WorldEvolver не заменяет саму модель мира, а работает как надстройка. Если базовая модель мира систематически предсказывает неправильно (а не просто шумит), память может не помочь — нужен либо better model, либо больше данных для обучения. WorldEvolver улучшает использование существующей модели мира, но не может магически исправить фундаментально плохую модель.

Итог

WorldEvolver — это практичный ответ на вопрос, который многие разработчики LLM-агентов задают себе: если world models дают foresight, но этот foresight ненадёжен — как его использовать, не ломая агента? Ответ: через layered memory revision, которая фильтрует, корректирует и обобщает предсказания модели мира прямо на деплое.

Будущее LLM-агентов — не только в улучшении памяти и не только в улучшении моделей мира. Это в их комбинации, где память исправляет ошибки моделей, а модели дают generalization, который память не может обеспечить. WorldEvolver — один из первых работающих примеров такой комбинации.

Источник: arXiv:2606.30639 — Self-Evolving World Models for LLM Agent Planning, Zhang et al., NUS/SUTD/SMU, June 2026.