Benchmark · math

AIME 2024

5 results 3 models

STARE adaptive prompt selection mechanism greedy router

Timeline

2026-06-19 adaptive prompt selection mechanism 19.6% Adaptive LLM Tutoring Improves Engagement and Efficiency
2026-06-19 greedy router 19.1% Adaptive LLM Tutoring Improves Engagement and Efficiency
2026-06-18 STARE 4.0% STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability
2026-06-18 STARE 4.0% STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability
2026-06-18 STARE 4.0% STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability