Бенчмарк · reasoning
BIG-Bench Hard
saturated
2 результатов
2 моделей
7B model
30B model
Хронология
-
2026-06-24
7B model
52.5%
CALIBER: калибровка уверенности до и после рассуждения в моделях языка
-
2026-06-24
30B model
0.0%
CALIBER: калибровка уверенности до и после рассуждения в моделях языка