МедХал-Лок: тест-модель для проверки точности локализации ошибок в детекторах медицинских халлицинаций

МедХал-Лок вводит тест-модель для оценки того, насколько точно детекторы медицинских халлицинаций локализуют ошибки. Исследование показывает, что хотя некоторые архитектуры локализуют ошибки значительно лучше случайного уровня, пайплайн на основе знаний не превосходит случайный результат из-за плохой извлечения сущностей, несмотря на высокую точность обнаружения. Результаты показывают, что способность к обнаружению не гарантирует точную локализацию ошибок, что подрывает предположения о прозрачности архитектуры.