Бенчмарк · math
AIME 2025
- 2026-06-24 IW-OPD 6.9pts Весовое настройка на-поли-дистилляции решает смещение позиции
- 2026-06-19 adaptive prompt selection mechanism 28.1% Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность
- 2026-06-19 greedy router 19.1% Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность
- 2026-06-19 baseline 19.6% Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность
- 2026-06-19 stochastic router 28.1% Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность
- 2026-06-18 STARE 8.0% STARE: Регулирование преимуществ на уровне токенов с использованием сюрприза для стабильности энтропии политики
- 2026-06-18 STARE 8.0% STARE: Регулирование преимуществ на уровне токенов по принципу неожиданности для стабильности энтропии политики
- 2026-06-18 STARE 8.0% STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability