Este estudio realiza un análisis factorizado de la estimación de incertidumbre basada en sondas para determinar qué impulsa el rendimiento en la detección de alucinaciones dentro de los Modelos de Lenguaje Grande. La investigación aísla variables en el diseño de características, datos de entrenamiento y configuraciones de evaluación para proporcionar claras perspectivas sobre metodologías efectivas.

  • Los estados ocultos crudos y las características de atención superan a otras opciones dentro del dominio pero tienen dificultades bajo cambios de distribución.
  • Las características estructuradas y comprimidas resultan más robustas al enfrentar cambios de distribución en comparación con las señales crudas.
  • Las estrategias de prompting y la construcción de etiquetas influyen significativamente en el comportamiento y los resultados de rendimiento de la sonda.
  • Se desarrollaron sondas preentrenadas basadas en benchmarks que se transfieren razonablemente bien a tareas de generación factual abierta.

Los autores proporcionan una línea base estable lista para usar para la estimación de incertidumbre y fomentan que la comunidad adopte métodos de evaluación más orientados al despliegue para estos estimadores.