Самоусловленное присвоение кредитов для RL с подтверждаемыми вознаграждениями

SC-GRPO использует разность КЛ на уровне токена из самоусловленных траекторий для взвешивания градиентов в обучении с участием вознаграждений. Он превосходит GRPO на 8,1% и DAPO на 5,9% при выполнении задач по математике, программированию и агентским задачам, демонстрируя превосходную производительность при работе с распределениями, отличающимися от обучающих, и лучшие результаты по сравнению с OPD.

Бенчмарки

Бенчмарк	Модель	Результат
GSM8K	SC-GRPO	8.1%
GSM8K	DAPO	5.9%
GSM8K	OPD	—

Бенчмарк

Модель

Результат

GSM8K

SC-GRPO

8.1%

GSM8K

DAPO

5.9%

GSM8K

OPD

—