Самоэволюционирующие модели мира для планирования агентов LLM

В статье представлен WorldEvolver — фреймворк, который оснащает долгосрочных агентов LLM надежной способностью к предвидению за счет пересмотра контекста во время развертывания без изменения параметров модели. Он решает проблему ненадежных прогнозов, ухудшающих принятие решений, с помощью самоэволюционирующего подхода, повышающего точность предсказаний и качество планирования.

Эпизодическая память извлекает реальные переходы действий для симуляции.
Семантическая память извлекает устойчивые эвристические правила из несоответствий между прогнозами и наблюдениями.
Селективное предвидение фильтрует прогнозы с низкой уверенностью перед интеграцией.
Оценено на ALFWorld и ScienceWorld, демонстрирует наивысшую точность предсказаний среди трех бэкбонов.
Обходит другие базовые методы по доле успешных действий агента, измеренной на AgentBoard.

Этот подход демонстрирует, что пересмотр памяти во время тестирования значительно улучшает как точность прогнозов модели мира, так и общую долю успеха задач планирования агента.