Авторы утверждают, что основной подход обучения с подкреплением с проверяемыми наградами (RLVR) часто не способен расширить способность к рассуждению больших языковых моделей, ограничиваясь лишь перераспределением вероятностей среди существующих траекторий. Чтобы устранить это ограничение, они предлагают метод куркулярного обучения с подкреплением, учитывающего границы, направленный на преодоление эмпирической границы способности к рассуждению базовой модели. Метод сначала использует выборку pass@k для определения текущих пределов рассуждения, а затем применяет целенаправленное руководство учителя к примерам, находящимся вблизи этой границы или за ее пределами. Обучение с подкреплением затем используется для закрепления этих новых паттернов рассуждения на базовых моделях Qwen, Llama и DeepSeek. Экспериментальные результаты демонстрируют значительное улучшение как показателей pass@1, так и pass@256, которые служат прокси-метрикой для границы способности к рассуждению. В частности, средний показатель pass@256 улучшился на 9,8 процентных пункта по сравнению с базовыми моделями и на 10,3 процентных пункта по сравнению с базовым RLVR (Vanilla RLVR). Эти выводы указывают на то, что данная стратегия на основе куррикулума предлагает масштабируемый путь для непрерывного улучшения способностей к рассуждению больших языковых моделей.
Куркулярное обучение с подкреплением, учитывающее границы, расширяет способность к рассуждению больших языковых моделей за пределы ограничений базовой модели
Переведено с English → Русский