AsyncOPD: Насколько устаревшими могут быть отклики в дистилляции on-policy?
В данной статье представлен AsyncOPD — полностью асинхронный конвейер дистилляции on-policy, который разделяет генерацию откликов и обновления обучаемой модели, чтобы устранить узкие места в обучении при постобучении больших языковых моделей. Авторы проводят первое систематическое исследование влияния устаревания данных в этом контексте, демонстрируя, что прямое расхождение Кульбака-Лейблера с весами учителя устойчиво к устаревшим откликам, тогда как обратное расхождение с весами ученика уязвимо.