arxiv arXiv cs.CL · hace 1 h · fuente: hace 4 d · research

CALIBER: Calibrando la confianza antes y después del razonamiento en modelos de lenguaje

Traducido del English → Español

CALIBER introduce un método que elicita y supervisa estimaciones de confianza en dos etapas: antes y después del razonamiento. Reduce el Error de Calibración Esperada en un 52,5% en BigMathDigits para un modelo de 7B, logrando la mejor puntuación Brier y AUROC, y obtiene los mejores resultados en benchmarks fuera de distribución como GPQA y TriviaQA.

Importancia 2/3 arXiv cs.CL Evaluation & benchmarks Reasoning models

Benchmarks

Benchmark	Modelo	Puntuación
GPQA Diamond	30B model	0%
BIG-Bench Hard	7B model	52.5%
BIG-Bench Hard	30B model	0%

Leer original