Систематическое тестирование методов обнаружения галлюцинаций на основе лёгких моделей для задач QA, диалога и суммаризации

В данной статье проводится бенчмарк пяти лёгких методов обнаружения галлюцинаций, работающих на CPU, чтобы предложить практические альтернативы исследователям с ограниченными ресурсами, которые не могут использовать решения, требующие GPU или являющиеся проприетарными. Исследование оценивает ROUGE-L, семантическое сходство, BERTScore, детектор NLI DeBERTa, обученный на FEVER, и ансамбль методов на основе сходства и NLI на задачах вопросно-ответных систем, диалога и суммаризации из бенчмарка HaluEval.

Ни один метод не доминирует; производительность сильно зависит от задачи.
Ансамбль показывает лучшие результаты в задачах QA с F1-мерой 0.792 и AUC-ROC 0.873.
Детектор NLI лидирует в обнаружении галлюцинаций в диалогах с AUC-ROC 0.713.
Все пять методов деградируют до производительности, близкой к случайной, на задачах суммаризации, со значениями AUC-ROC от 0.469 до 0.574.

Это систематическое падение производительности на суммаризации очерчивает практические границы обнаружения галлюцинаций без GPU и даёт рекомендации по выбору методов в условиях вычислительных ограничений.