Бенчмарк · math

AIME 2024

5 результатов 3 моделей

STARE adaptive prompt selection mechanism greedy router

Хронология

2026-06-19 adaptive prompt selection mechanism 19.6% Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность
2026-06-19 greedy router 19.1% Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность
2026-06-18 STARE 4.0% STARE: Регулирование преимуществ на уровне токенов с использованием сюрприза для стабильности энтропии политики
2026-06-18 STARE 4.0% STARE: Регулирование преимуществ на уровне токенов по принципу неожиданности для стабильности энтропии политики
2026-06-18 STARE 4.0% STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability