CALIBER представляет метод, который выявляет и контролирует оценки уверенности на двух стадиях: до и после рассуждения. Он снижает ожидаемую ошибку калибровки на 52,5% на BigMathDigits для модели размером 7B, достигая наилучшего значения Brier и AUROC, и показывает лучшие результаты на внешних по распределению тестах, таких как GPQA и TriviaQA.