Los autores proponen ARKD, un marco de destilación adaptativa ponderada por KL basado en aprendizaje por refuerzo que aborda las limitaciones de los métodos con un solo objetivo KL en la compresión de Modelos de Lenguaje Grande. Al utilizar una red de política para asignar dinámicamente pesos a la divergencia KL directa e inversa según las características distribucionales del maestro y el estudiante, el método logra una alineación dual en los modos principales y de cola larga.
- Utiliza una red de política guiada por señales de recompensa inmediata para ponderar adaptativamente la divergencia KL directa e inversa.
- Equilibra el ajuste de la distribución principal con el modelado de probabilidades de cola larga para mejorar la calidad de la generación.
- Supera las heurísticas voraces en 0.4-0.6 puntos en las métricas Rouge-L y BertScore.
- Demuestra mejoras consistentes sobre otros métodos de referencia en diversos conjuntos de pruebas.
Este enfoque mejora tanto la calidad de la generación como la generalización de los modelos comprimidos al abordar eficazmente los compromisos inherentes a las técnicas tradicionales de destilación de conocimiento.