Optimización de Políticas de Grupo-Gráfico para RL Agénico de Largo Alcance

La Optimización de Políticas de Grupo-Gráfico (G2PO) introduce un enfoque basado en grafos para mejorar el aprendizaje por refuerzo agénico de largo alcance, transformando trayectorias de interacción en grafos de transición de estado. Permite la estimación agregada del valor de estado y el cálculo de ventaja centrado en las aristas, mejorando la asignación de crédito y reduciendo la varianza, logrando hasta un 22.2% de mejora en la tasa de éxito sobre GRPO en los benchmarks WebShop, ALFWorld y AppWorld.