Систематическое тестирование методов обнаружения галлюцинаций на основе лёгких моделей для задач QA, диалога и суммаризации
В данной статье проводится бенчмарк пяти лёгких методов обнаружения галлюцинаций, работающих на CPU, чтобы предложить практические альтернативы исследователям с ограниченными ресурсами, которые не могут использовать решения, требующие GPU или являющиеся проприетарными. Исследование оценивает ROUGE-L, семантическое сходство, BERTScore, детектор NLI DeBERTa, обученный на FEVER, и ансамбль методов на основе сходства и NLI на задачах вопросно-ответных систем, диалога и суммаризации из бенчмарка HaluEval.