arxiv
arXiv cs.CL
·
hace 6 h
Evaluación sistemática de la detección ligera de alucinaciones en QA, diálogo y resumén
Este artículo evalúa cinco métodos ligeros de detección de alucinaciones, viables para CPU, para proporcionar alternativas prácticas para investigadores con recursos limitados que no pueden usar soluciones intensivas en GPU o propietarias. El estudio evalúa ROUGE-L, similitud semántica, BERTScore, un detector NLI DeBERTa entrenado con FEVER y un conjunto de similitud y NLI a través de las tareas de pregunta-respuesta, diálogo y resumén del benchmark HaluEval.