EnvRL introduce un marco que mejora el aprendizaje por refuerzo agéntico incorporando la dinámica del entorno a través de objetivos de predicción de estado y dinámica inversa. Al entrenarse con GRPO, EnvRL mejora las tasas de éxito de Qwen-2.5-1.5B-Instruct de 72.8% a 77.4% en ALFWorld y de 56.8% a 67.0% en WebShop.
EnvRL: Aprovechando la Dinámica del Entorno en RL Agéntico
Traducido del English → Español