CALIBER introduce un método que elicita y supervisa estimaciones de confianza en dos etapas: antes y después del razonamiento. Reduce el Error de Calibración Esperada en un 52,5% en BigMathDigits para un modelo de 7B, logrando la mejor puntuación Brier y AUROC, y obtiene los mejores resultados en benchmarks fuera de distribución como GPQA y TriviaQA.
CALIBER: Calibrando la confianza antes y después del razonamiento en modelos de lenguaje
Traducido del English → Español