La modelización del mundo autorizada por agentes alinea el entrenamiento con las necesidades de decisión

El artículo introduce la Modelización del Mundo Autorizada por Agentes (AAWM), un procedimiento de entrenamiento que aborda las limitaciones de los objetivos estándar de modelización del mundo vinculados a la predicción de la siguiente observación. Este enfoque tradicional a menudo omite dinámicas relevantes para la decisión actual de un agente porque la supervisión depende de lo que revela una transición en lugar de lo que se necesita. AAWM construye la supervisión directamente a partir de las necesidades de decisión de la política, haciendo que el agente identifique la comprensión ambiental necesaria en cada estado. La evidencia de transiciones relevantes se recupera a través de trayectorias y se sintetiza en objetivos de entrenamiento que capturan estas dinámicas orientadas a la decisión. Este método alinea el objetivo de aprendizaje con la información específica requerida antes de actuar, en lugar de forzar al modelo a reconstruir la siguiente observación. Los resultados experimentales validan la efectividad de AAWM en múltiples entornos y configuraciones de entrenamiento. Los hallazgos demuestran que los objetivos de modelización del mundo conscientes de la decisión proporcionan una señal de aprendizaje más efectiva que la predicción convencional de la siguiente observación.