Бенчмарк · math

AIME 2025

8 результатов 6 моделей
0 7.5 15 22.5 30 2026-06-18 2026-06-21 2026-06-24 STARE · 8 · 2026-06-18 STARE · 8 · 2026-06-18 STARE · 8 · 2026-06-18 greedy router · 19.1 · 2026-06-19 baseline · 19.6 · 2026-06-19 stochastic router · 28.1 · 2026-06-19 adaptive prompt selection mechanism · 28.1 · 2026-06-19 IW-OPD · 6.9 · 2026-06-24
STARE greedy router baseline stochastic router adaptive prompt selection mechanism IW-OPD
Хронология
  1. 2026-06-24 IW-OPD 6.9pts Весовое настройка на-поли-дистилляции решает смещение позиции
  2. 2026-06-19 adaptive prompt selection mechanism 28.1% Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность
  3. 2026-06-19 greedy router 19.1% Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность
  4. 2026-06-19 baseline 19.6% Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность
  5. 2026-06-19 stochastic router 28.1% Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность
  6. 2026-06-18 STARE 8.0% STARE: Регулирование преимуществ на уровне токенов с использованием сюрприза для стабильности энтропии политики
  7. 2026-06-18 STARE 8.0% STARE: Регулирование преимуществ на уровне токенов по принципу неожиданности для стабильности энтропии политики
  8. 2026-06-18 STARE 8.0% STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability