STARE: перебалансировка преимуществ на уровне токенов, управляемая неожиданностью, для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в обучении с подкреплением на основе GRPO, выявляя подмножества токенов, критичные для энтропии, с помощью квантилей неожиданности и перебалансируя их преимущества. Метод поддерживает стабильную энтропию политики в масштабах моделей и задачах, превосходя DAPO и другие базовые методы на 4%-8% по AIME24 и AIME25 при сохранении баланса между исследованием и использованием.

Бенчмарки

Бенчмарк	Модель	Результат
AIME 2025	STARE	8%
AIME 2024	STARE	4%

Бенчмарк

Модель

Результат

AIME 2025

STARE

AIME 2024

STARE