korshunov
.ai
Русский
Сегодня
Неделя
Все статьи
Бенчмарк · reasoning
GPQA Diamond
1 результатов
1 моделей
0
0
0
0
0
2026-06-24
30B model · 0 · 2026-06-24
30B model
Хронология
2026-06-24
30B model
0.0%
CALIBER: калибровка уверенности до и после рассуждения в моделях языка