Адаптивное планирование данных (ADS) вводит двууровневую систему планирования данных, которая заменяет равномерное выборку на адаптивное распределение по семантическим кластерам и выборку образцов на границах политики. Экспериментальные результаты показывают, что ADS улучшает среднюю точность на 5,2% по сравнению с GRPO при трех больших языковых моделях и семи задачах логического мышления, что демонстрирует его эффективность как универсальной стратегии для постобучения больших языковых моделей на основе реверсии.