SC-GRPO использует разность КЛ на уровне токена из самоусловленных траекторий для взвешивания градиентов в обучении с участием вознаграждений. Он превосходит GRPO на 8,1% и DAPO на 5,9% при выполнении задач по математике, программированию и агентским задачам, демонстрируя превосходную производительность при работе с распределениями, отличающимися от обучающих, и лучшие результаты по сравнению с OPD.
arxiv
arXiv cs.AI
·
7 д назад
·
research
Самоусловленное присвоение кредитов для RL с подтверждаемыми вознаграждениями
Переведено с English → Русский
Важность 3/3
Обходит бенчмарк топ-лаборатории
Новая фича по сравнению с лидерами
arXiv cs.AI
OpenAI
Google DeepMind
Meta AI
Evaluation & benchmarks
Reasoning models
Training methods