EnvRL представляет рамку, которая улучшает агентное обучение с помощью вознаграждения за интеграцию динамики среды через прогнозирование состояния и обратные динамические цели. При обучении с использованием GRPO, EnvRL повышает показатели успеха Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop.
arxiv
arXiv cs.LG
·
8 д назад
·
ист: 9 д назад
·
research
EnvRL: Использование динамики среды в агентном RL
Переведено с English → Русский
Важность 3/3
Новая фича по сравнению с лидерами
Новый бенчмарк-харнесс с отличиями
arXiv cs.LG
Alibaba (Qwen)
AI agents
Reasoning models
Training methods
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| WebArena | Qwen-2.5-1.5B-Instruct | 77.4% |