arxiv arXiv cs.AI · hace 2 h · fuente: hace 11 d · research

RODS: Síntesis de datos en línea impulsada por recompensa para agentes de uso de herramientas multi-turno

Traducido del English → Español

RODS aborda el agotamiento de muestras en RL de uso de herramientas multi-turno utilizando la varianza de la recompensa para detectar límites de capacidad. Sintetiza nuevos datos en tiempo real, coincidiendo con la complejidad estructural de las muestras límite, y mantiene un búfer de repetición dinámico que coevoluciona con la política. RODS logra un rendimiento comparable a una tubería offline de 17K muestras con 20x menos trayectorias.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.AI OpenAI Google DeepMind Meta AI AI agents Reasoning models Training methods

Leer original