GraphPO introduce un marco de grafos acíclicos dirigidos para representar rollouts de razonamiento, fusionando caminos semánticamente equivalentes para reducir la exploración redundante. Asigna ventajas de eficiencia y corrección a las aristas, mejorando la eficiencia de inferencia y la supervisión del proceso mientras reduce la varianza de estimación de ventaja. Los experimentos muestran que GraphPO supera a los métodos basados en cadenas y árboles en tres LLMs en tareas de razonamiento y búsqueda agéntica bajo presupuestos idénticos de tokens o respuestas.
GraphPO: Optimización de políticas basada en grafos para modelos de razonamiento
Traducido del English → Español