Авторы предлагают ARKD — адаптивную фреймворковую систему дистилляции с весами по KL, основанную на обучении с подкреплением, которая устраняет ограничения методов с единственным объективом KL при сжатии больших языковых моделей. Используя сеть политик для динамического назначения весов прямому и обратному расхождению Кульбака-Лейблера в зависимости от распределительных характеристик учителя и ученика, метод обеспечивает двойное выравнивание по основным и длиннохвостым модам.
- Использует сеть политик, направляемую сигналами немедленного вознаграждения, для адаптивного взвешивания прямого и обратного расхождения Кульбака-Лейблера.
- Балансирует подгонку основной распределительной функции с моделированием вероятностей длинного хвоста для улучшения качества генерации.
- Превосходит жадные эвристики на 0,4–0,6 балла по метрикам Rouge-L и BertScore.
- Демонстрирует последовательные улучшения перед другими базовыми методами на разнообразных бенчмарках.
Этот подход улучшает как качество генерации, так и обобщающую способность сжатых моделей, эффективно решая компромиссы, присущие традиционным техникам дистилляции знаний.