Адаптивное планирование данных улучшает обучение на основе реверсии для больших языковых моделей

Адаптивное планирование данных (ADS) вводит двууровневую систему планирования данных, которая заменяет равномерное выборку на адаптивное распределение по семантическим кластерам и выборку образцов на границах политики. Экспериментальные результаты показывают, что ADS улучшает среднюю точность на 5,2% по сравнению с GRPO при трех больших языковых моделях и семи задачах логического мышления, что демонстрирует его эффективность как универсальной стратегии для постобучения больших языковых моделей на основе реверсии.