ToolGraph mejora los agentes multi-turno que utilizan herramientas integrando topología de esquemas, pesos de transición y controles conscientes del historial. El entrenamiento con DPO en 161 pares de preferencia en puntos de divergencia mejora el rendimiento: ToolGraph+DPO logra una ganancia relativa de recompensa del 16.8% sobre la línea base, especialmente en tareas de aerolíneas y comercio minorista, emergiendo la positividad de la recompensa como la señal diagnóstica clave.
Autoevolución de agentes con capacidad de llamada de herramientas mediante aprendizaje de preferencia en puntos de divergencia
Traducido del English → Español