Групповая графовая оптимизация политики для долгосрочной агентной RL

Групповая графовая оптимизация политики (G2PO) вводит графовый подход для улучшения долгосрочной агентной реверсной обучения, преобразуя взаимодействия в траектории в графы состояний-переходов. Она позволяет осуществлять групповую агрегацию оценки состояния и вычисление преимуществ на основе рёбер, улучшая присвоение кредитов и снижая дисперсию, и достигает улучшения показателя успешности до 22,2% по сравнению с GRPO на бенчмарках WebShop, ALFWorld и AppWorld.