RODS aborda el agotamiento de muestras en RL de uso de herramientas multi-turno utilizando la varianza de la recompensa para detectar límites de capacidad. Sintetiza nuevos datos en tiempo real, coincidiendo con la complejidad estructural de las muestras límite, y mantiene un búfer de repetición dinámico que coevoluciona con la política. RODS logra un rendimiento comparable a una tubería offline de 17K muestras con 20x menos trayectorias.
RODS: Síntesis de datos en línea impulsada por recompensa para agentes de uso de herramientas multi-turno
Traducido del English → Español