Colapso del RL de Uso de Herramientas en Múltiples Pasos y Correcciones Supervisadas

Los recientes métodos de aprendizaje por refuerzo agéntico para modelos de lenguaje grandes a menudo sufren de inestabilidad o ganancias limitadas en tareas de uso de herramientas. Los experimentos revelan que algunos modelos experimentan un colapso catastrófico, donde el rendimiento cae abruptamente y las estructuras de invocación de herramientas fallan. El análisis muestra que estos fallos provienen de picos de probabilidad inesperados en tokens de control específicos que interrumpen la ejecución estructurada. A pesar de esta interrupción, la capacidad subyacente de uso de herramientas permanece intacta pero está oscurecida por problemas específicos de formato. Para abordar esto, el estudio investiga diversas señales supervisadas, incluyendo supervisión fuera de política y guía basada en pistas bajo varios esquemas de entrenamiento. Los autores encuentran que intercalar el ajuste fino supervisado con el aprendizaje por refuerzo mejora sustancialmente la estabilidad durante el entrenamiento. Sin embargo, este enfoque exhibe un rendimiento degradado cuando se evalúa en datos fuera de distribución para formato y contenido. Los resultados destacan la importancia de comprender los fallos del RL para permitir un entrenamiento robusto para tareas complejas de uso de herramientas en múltiples pasos.