STARE aborda el colapso de la entropía de la política en el aprendizaje por refuerzo basado en GRPO identificando subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresividad y reponderando sus ventajas. Mantiene una entropía de la política estable a través de escalas de modelos y tareas, superando a DAPO y otras líneas base entre un 4% y un 8% en AIME24 y AIME25, con un equilibrio consistente entre exploración y explotación.