EnvRL: Использование динамики среды в агентном обучении с помощью вознаграждений
EnvRL представляет рамку, которая улучшает агентное обучение с вознаграждением за счет включения динамики среды через прогнозирование состояния и обратные динамические цели. Оно обеспечивает значительное увеличение показателей успеха на задачах с длинными горизонтами, улучшая производительность Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop при обучении с использованием GRPO.