Entorno de entrenamiento diseñado por LLM para RL con razonamiento multiagente

El marco LLM-as-Environment-Engineer utiliza LLMs para rediseñar automáticamente entornos de entrenamiento en aprendizaje por refuerzo analizando trayectorias de fallo y datos contextuales. En el banco de pruebas MAPF-FrozenLake, supera a LLMs propietarios más grandes y a las líneas base de entornos fijos, con Qwen3-4B logrando el mejor rendimiento agregado. El análisis muestra que la evidencia de fallo y las configuraciones de trabajo preservadas son clave, y la checkpoint actual de RL funciona mejor que el modelo base como ingeniero de entornos.