CALIBER представляет метод, который выявляет и контролирует оценки уверенности на двух стадиях: до и после рассуждения. Он снижает ожидаемую ошибку калибровки на 52,5% на BigMathDigits для модели размером 7B, достигая наилучшего значения Brier и AUROC, и показывает лучшие результаты на внешних по распределению тестах, таких как GPQA и TriviaQA.
arxiv
arXiv cs.CL
·
1 д назад
·
research
CALIBER: калибровка уверенности до и после рассуждения в моделях языка
Переведено с English → Русский
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| GPQA Diamond | 30B model | 0% |
| BIG-Bench Hard | 7B model | 52.5% |
| BIG-Bench Hard | 30B model | 0% |