ARKD: Destilación bidireccional de divergencia KL guiada por aprendizaje por refuerzo adaptativo para generación de texto
Los autores proponen ARKD, un marco de destilación adaptativa ponderada por KL basado en aprendizaje por refuerzo que aborda las limitaciones de los métodos con un solo objetivo KL en la compresión de Modelos de Lenguaje Grande. Al utilizar una red de política para asignar dinámicamente pesos a la divergencia KL directa e inversa según las características distribucionales del maestro y el estudiante, el método logra una alineación dual en los modos principales y de cola larga.