AsyncOPD: ¿Qué tan obsoleta puede ser la destilación on-policy?
Este artículo presenta AsyncOPD, una tubería de destilación on-policy completamente asíncrona que desacopla la generación de rollouts de las actualizaciones del aprendiz para aliviar los cuellos de botella de entrenamiento en el post-entrenamiento de modelos de lenguaje grandes. Los autores proporcionan el primer estudio sistemático de los efectos de la obsolescencia (staleness) en este contexto, demostrando que la divergencia KL directa ponderada por el maestro es robusta frente a rollouts obsoletos, mientras que la KL inversa ponderada por el estudiante es vulnerable.