Бенчмарк · reasoning

BIG-Bench Hard

saturated 2 результатов 2 моделей
0 14 28 42 56 2026-06-24 7B model · 52.5 · 2026-06-24 30B model · 0 · 2026-06-24
7B model 30B model
Хронология
  1. 2026-06-24 7B model 52.5% CALIBER: калибровка уверенности до и после рассуждения в моделях языка
  2. 2026-06-24 30B model 0.0% CALIBER: калибровка уверенности до и после рассуждения в моделях языка