STARE решает проблему коллапса политической энтропии в методах GRPO на основе робастного обучения, определяя подмножества токенов, критичных для энтропии, с помощью квантилей неудивления и пересчитывая их преимущества. Оно обеспечивает стабильность политической энтропии на различных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.
arxiv
arXiv cs.CL
·
7 д назад
·
research
STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability
Переведено с English → Русский
Важность 3/3
Новая фича по сравнению с лидерами
Новый бенчмарк-харнесс с отличиями
arXiv cs.CL
Allen AI
Evaluation & benchmarks
Reasoning models
Training methods