ARKD: Адаптивное двустороннее дистиллирование расхождения Кульбака-Лейблера, направляемое обучением с подкреплением, для генерации текста

Авторы предлагают ARKD — адаптивную фреймворковую систему дистилляции с весами по KL, основанную на обучении с подкреплением, которая устраняет ограничения методов с единственным объективом KL при сжатии больших языковых моделей. Используя сеть политик для динамического назначения весов прямому и обратному расхождению Кульбака-Лейблера в зависимости от распределительных характеристик учителя и ученика, метод обеспечивает двойное выравнивание по основным и длиннохвостым модам.

Использует сеть политик, направляемую сигналами немедленного вознаграждения, для адаптивного взвешивания прямого и обратного расхождения Кульбака-Лейблера.
Балансирует подгонку основной распределительной функции с моделированием вероятностей длинного хвоста для улучшения качества генерации.
Превосходит жадные эвристики на 0,4–0,6 балла по метрикам Rouge-L и BertScore.
Демонстрирует последовательные улучшения перед другими базовыми методами на разнообразных бенчмарках.

Этот подход улучшает как качество генерации, так и обобщающую способность сжатых моделей, эффективно решая компромиссы, присущие традиционным техникам дистилляции знаний.