arxiv arXiv cs.CL · hace 1 h · fuente: hace 5 d · research

Autoevolución de agentes con capacidad de llamada de herramientas mediante aprendizaje de preferencia en puntos de divergencia

Traducido del English → Español

ToolGraph mejora los agentes multi-turno que utilizan herramientas integrando topología de esquemas, pesos de transición y controles conscientes del historial. El entrenamiento con DPO en 161 pares de preferencia en puntos de divergencia mejora el rendimiento: ToolGraph+DPO logra una ganancia relativa de recompensa del 16.8% sobre la línea base, especialmente en tareas de aerolíneas y comercio minorista, emergiendo la positividad de la recompensa como la señal diagnóstica clave.

Importancia 2/3 Nuevo entorno de evaluación con diferenciadores arXiv cs.CL Allen AI AI agents Evaluation & benchmarks Reasoning models

Benchmarks

Benchmark	Modelo	Puntuación
τ²-bench	ToolGraph+DPO	0.35%
τ²-bench	ToolGraph	0.34%

Leer original