Este artículo evalúa cinco métodos ligeros de detección de alucinaciones, viables para CPU, para proporcionar alternativas prácticas para investigadores con recursos limitados que no pueden usar soluciones intensivas en GPU o propietarias. El estudio evalúa ROUGE-L, similitud semántica, BERTScore, un detector NLI DeBERTa entrenado con FEVER y un conjunto de similitud y NLI a través de las tareas de pregunta-respuesta, diálogo y resumén del benchmark HaluEval.
- Ningún método domina; el rendimiento depende altamente de la tarea.
- El conjunto logra los mejores resultados en pregunta-respuesta con una puntuación F1 de 0.792 y AUC-ROC de 0.873.
- El detector NLI lidera en detección de diálogo con un AUC-ROC de 0.713.
- Los cinco métodos degradan a un rendimiento cercano al azar en resumén, con puntuaciones AUC-ROC entre 0.469 y 0.574.
Este fallo sistemático en resumén delimita la frontera práctica de la detección de alucinaciones sin GPU y ofrece orientación para la selección de métodos bajo restricciones computacionales.