ToolGraph mejora los agentes multi-turno que utilizan herramientas integrando topología de esquemas, pesos de transición y controles conscientes del historial. El entrenamiento con DPO en 161 pares de preferencia en puntos de divergencia mejora el rendimiento: ToolGraph+DPO logra una ganancia relativa de recompensa del 16.8% sobre la línea base, especialmente en tareas de aerolíneas y comercio minorista, emergiendo la positividad de la recompensa como la señal diagnóstica clave.