arxiv arXiv cs.LG · hace 2 h · fuente: hace 12 d · research

EnvRL: Aprovechando la Dinámica del Entorno en RL Agéntico

Traducido del English → Español

EnvRL introduce un marco que mejora el aprendizaje por refuerzo agéntico incorporando la dinámica del entorno a través de objetivos de predicción de estado y dinámica inversa. Al entrenarse con GRPO, EnvRL mejora las tasas de éxito de Qwen-2.5-1.5B-Instruct de 72.8% a 77.4% en ALFWorld y de 56.8% a 67.0% en WebShop.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.LG Alibaba (Qwen) AI agents Reasoning models Training methods

Benchmarks

Benchmark	Modelo	Puntuación
WebArena	Qwen-2.5-1.5B-Instruct	77.4%

Leer original