GraphPO: Optimización de políticas basada en grafos para modelos de razonamiento

GraphPO introduce un marco de grafos acíclicos dirigidos para representar rollouts de razonamiento, fusionando caminos semánticamente equivalentes para reducir la exploración redundante. Asigna ventajas de eficiencia y corrección a las aristas, mejorando la eficiencia de inferencia y la supervisión del proceso mientras reduce la varianza de estimación de ventaja. Los experimentos muestran que GraphPO supera a los métodos basados en cadenas y árboles en tres LLMs en tareas de razonamiento y búsqueda agéntica bajo presupuestos idénticos de tokens o respuestas.