AsyncOPD: ¿Qué tan obsoleta puede ser la destilación on-policy?

Este artículo presenta AsyncOPD, una tubería de destilación on-policy completamente asíncrona que desacopla la generación de rollouts de las actualizaciones del aprendiz para aliviar los cuellos de botella de entrenamiento en el post-entrenamiento de modelos de lenguaje grandes. Los autores proporcionan el primer estudio sistemático de los efectos de la obsolescencia (staleness) en este contexto, demostrando que la divergencia KL directa ponderada por el maestro es robusta frente a rollouts obsoletos, mientras que la KL inversa ponderada por el estudiante es vulnerable.

La divergencia KL directa ponderada por el maestro es más robusta ante datos obsoletos que la divergencia KL inversa ponderada por el estudiante.
Los métodos de estabilización del aprendizaje por refuerzo asíncrono no superan a un sustituto más simple específico de OPD que recalcula la señal de KL inversa en el momento del aprendiz.
Las cachés de puntuación del maestro finitas crean un compromiso sesgo-varianza, motivando el uso de Monte Carlo multi-muestra para reducir la varianza de una sola muestra mientras se preserva la corrección de MC.
La tubería AsyncOPD de código abierto mejora el rendimiento de entrenamiento en 1.6x a 3.8x sobre el entrenamiento síncrono estricto, manteniendo una precisión comparable.

Los autores consideran esto significativo porque permite un mayor rendimiento de entrenamiento para cargas de trabajo de razonamiento sin sacrificar el rendimiento del modelo, abordando el cuello de botella crítico del sistema donde los rollouts dominan el tiempo de entrenamiento.