ARKD: Адаптивное двустороннее дистиллирование расхождения Кульбака-Лейблера, направляемое обучением с подкреплением, для генерации текста
Авторы предлагают ARKD — адаптивную фреймворковую систему дистилляции с весами по KL, основанную на обучении с подкреплением, которая устраняет ограничения методов с единственным объективом KL при сжатии больших языковых моделей. Используя сеть политик для динамического назначения весов прямому и обратному расхождению Кульбака-Лейблера в зависимости от распределительных характеристик учителя и ученика, метод обеспечивает двойное выравнивание по основным и длиннохвостым модам.