STARE: Регулирование преимуществ на уровне токенов по принципу неожиданности для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в методе GRPO на основе обучения с усилением, определяя критические подмножества токенов по квантилям неожиданности и пересчитывая их преимущества. Оно обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

Бенчмарки

Бенчмарк	Модель	Результат
AIME 2025	STARE	8%
AIME 2024	STARE	4%

Бенчмарк

Модель

Результат

AIME 2025

STARE

AIME 2024

STARE