EnvRL: Aprovechando la dinámica del entorno en RL agéntico
EnvRL introduce un marco que mejora el aprendizaje por refuerzo agéntico incorporando la dinámica del entorno a través de objetivos de predicción de estado y dinámicas inversas. Logra ganancias significativas en las tasas de éxito en benchmarks de largo horizonte, mejorando el rendimiento de Qwen-2.5-1.5B-Instruct de 72.8% a 77.4% en ALFWorld y de 56.8% a 67.0% en WebShop cuando se entrena con GRPO.