Brecha de granularidad en la puntuación de confianza de LLM

Un estudio compara siete métodos de puntuación de confianza en 25 pares modelo-dataset, encontrando que la confianza verbalizada single-shot clasifica bien los casos pero ofrece solo unos pocos valores distintos, limitando los umbrales del operador. La agregación multi-query amplía la brecha de granularidad de la puntuación, mejorando a los modelos débiles pero degradando a los fuertes, con compensaciones que informan el despliegue práctico.