Este artículo evalúa cinco métodos ligeros de detección de alucinaciones, viables para CPU, para proporcionar alternativas prácticas para investigadores con recursos limitados que no pueden usar soluciones intensivas en GPU o propietarias. El estudio evalúa ROUGE-L, similitud semántica, BERTScore, un detector NLI DeBERTa entrenado con FEVER y un conjunto de similitud y NLI a través de las tareas de pregunta-respuesta, diálogo y resumén del benchmark HaluEval.

  • Ningún método domina; el rendimiento depende altamente de la tarea.
  • El conjunto logra los mejores resultados en pregunta-respuesta con una puntuación F1 de 0.792 y AUC-ROC de 0.873.
  • El detector NLI lidera en detección de diálogo con un AUC-ROC de 0.713.
  • Los cinco métodos degradan a un rendimiento cercano al azar en resumén, con puntuaciones AUC-ROC entre 0.469 y 0.574.

Este fallo sistemático en resumén delimita la frontera práctica de la detección de alucinaciones sin GPU y ofrece orientación para la selección de métodos bajo restricciones computacionales.