BiPACE: Optimización de políticas guiada por bisimulación con estimación de contrafactuales de acción para agentes LLM

Los autores identifican una discrepancia fundamental en el crédito de estado-acción en el RL basado en grupos paso a paso para agentes LLM de largo horizonte. Los estimadores actuales sufren de una partición de estados demasiado fina y un promedio de acciones demasiado grueso, lo que viola los supuestos de equivalencia para la asignación de crédito. Se introduce BiPACE como un estimador de ventaja plug-in que corrige estos problemas sin añadir críticos ni rollouts adicionales. Agrupa pasos por distancia coseno en la geometría del estado oculto del actor para reducir grupos singleton y recentra las recompensas utilizando líneas base de pares condicionadas a la acción. En ALFWorld con Qwen2.5-7B, BiPACE_Q eleva el éxito de validación de 90.8 a 97.1±0.9, cruzando el umbral del 95% en cada semilla. También mejora el rendimiento en Qwen2.5-1.5B y logra ganancias en WebShop y TextCraft sobre GRPO y GiGPO. El método incurre solo en un exceso del 11.3% del tiempo de pared de un paso de entrenamiento mientras cambia la unidad de comparación a una equivalencia conductual aproximada.