STARE решает проблему коллапса энтропии политики в методе GRPO на основе обучения с усилением, определяя критические подмножества токенов по квантилям неожиданности и пересчитывая их преимущества. Оно обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.
STARE: Регулирование преимуществ на уровне токенов по принципу неожиданности для стабильности энтропии политики
Переведено с English → Русский