arxiv arXiv cs.CL · hace 2 h · fuente: hace 9 d · research

STARE: Reponderación de ventajas a nivel de token guiada por sorpresividad para la estabilidad de la entropía de la política

Traducido del English → Español

STARE aborda el colapso de la entropía de la política en el aprendizaje por refuerzo basado en GRPO identificando subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresividad y reponderando sus ventajas. Mantiene una entropía de la política estable a través de escalas de modelos y tareas, superando a DAPO y otras líneas base entre un 4% y un 8% en AIME24 y AIME25, con un equilibrio consistente entre exploración y explotación.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.CL Allen AI Evaluation & benchmarks Reasoning models Training methods

Benchmarks

Benchmark	Modelo	Puntuación
AIME 2025	STARE	8%
AIME 2024	STARE	4%

Leer original