STARE решает проблему коллапса энтропии политики в обучении с подкреплением на основе GRPO, выявляя подмножества токенов, критичные для энтропии, с помощью квантилей неожиданности и перебалансируя их преимущества. Метод поддерживает стабильную энтропию политики в масштабах моделей и задачах, превосходя DAPO и другие базовые методы на 4%-8% по AIME24 и AIME25 при сохранении баланса между исследованием и использованием.
STARE: перебалансировка преимуществ на уровне токенов, управляемая неожиданностью, для стабильности энтропии политики
Переведено с English → Русский