Modelos del Mundo de Autoevolución para la Planificación de Agentes LLM

El artículo presenta WorldEvolver, un marco que dota a los agentes LLM de horizonte largo de una previsión confiable mediante la revisión del contexto en el momento del despliegue sin modificar los parámetros del modelo. Aborda el problema de las predicciones no confiables que degradan la toma de decisiones a través de un enfoque de autoevolución que mejora la fidelidad predictiva y el rendimiento de la planificación.

La Memoria Episódica recupera transiciones de acción reales para la simulación.
La Memoria Semántica extrae reglas heurísticas persistentes a partir de las discrepancias entre predicción y observación.
La Previsión Selectiva filtra las predicciones de baja confianza antes de la integración.
Evaluado en ALFWorld y ScienceWorld, alcanza la mayor precisión predictiva entre tres backbones.
Supera a otras líneas base en la tasa de éxito del agente en tareas posteriores medida en AgentBoard.

Este enfoque demuestra que la revisión de la memoria en el momento de la prueba mejora significativamente tanto la precisión de las predicciones del modelo del mundo como la tasa de éxito general de las tareas de planificación del agente.