Evaluación sistemática de la detección ligera de alucinaciones en QA, diálogo y resumén

Este artículo evalúa cinco métodos ligeros de detección de alucinaciones, viables para CPU, para proporcionar alternativas prácticas para investigadores con recursos limitados que no pueden usar soluciones intensivas en GPU o propietarias. El estudio evalúa ROUGE-L, similitud semántica, BERTScore, un detector NLI DeBERTa entrenado con FEVER y un conjunto de similitud y NLI a través de las tareas de pregunta-respuesta, diálogo y resumén del benchmark HaluEval.

Ningún método domina; el rendimiento depende altamente de la tarea.
El conjunto logra los mejores resultados en pregunta-respuesta con una puntuación F1 de 0.792 y AUC-ROC de 0.873.
El detector NLI lidera en detección de diálogo con un AUC-ROC de 0.713.
Los cinco métodos degradan a un rendimiento cercano al azar en resumén, con puntuaciones AUC-ROC entre 0.469 y 0.574.

Este fallo sistemático en resumén delimita la frontera práctica de la detección de alucinaciones sin GPU y ofrece orientación para la selección de métodos bajo restricciones computacionales.