AsyncOPD: Насколько устаревшими могут быть отклики в дистилляции on-policy?

В данной статье представлен AsyncOPD — полностью асинхронный конвейер дистилляции on-policy, который разделяет генерацию откликов и обновления обучаемой модели, чтобы устранить узкие места в обучении при постобучении больших языковых моделей. Авторы проводят первое систематическое исследование влияния устаревания данных в этом контексте, демонстрируя, что прямое расхождение Кульбака-Лейблера с весами учителя устойчиво к устаревшим откликам, тогда как обратное расхождение с весами ученика уязвимо.

Прямое расхождение Кульбака-Лейблера с весами учителя более устойчиво к устаревшим данным, чем обратное расхождение с весами ученика.
Методы стабилизации из асинхронного обучения с подкреплением не превосходят более простой специфичный для OPD суррогат, который пересчитывает сигнал обратного KL в момент обновления обучаемой модели.
Кэши оценок учителя конечного размера создают компромисс между смещением и дисперсией, что мотивирует использование многовыборочного Монте-Карло для снижения дисперсии одной выборки при сохранении корректности метода Монте-Карло.
Открытый исходный код конвейера AsyncOPD увеличивает пропускную способность обучения в 1.6–3.8 раза по сравнению со строгим синхронным обучением, сохраняя сопоставимую точность.

Авторы считают это значимым, поскольку это позволяет повысить пропускную способность обучения для задач рассуждения без ущерба для качества модели, решая критическую системную проблему, где генерация откликов доминирует во времени обучения.