Оценщики LLM не проявляют клинической осторожности, несмотря на статистическое совпадение в бенчмарке MedQADE

Исследование представляет MedQADE, стандартизированный открытый клинический бенчмарк для немецкого языка, включающий 3,800 элементов, аннотированных десятью врачами и девятью оценщиками LLM. Оно исследует, воспроизводят ли автоматизированные подходы LLM-as-a-Judge калибровку и осторожность человеческих клиницистов.

Модель с наилучшими результатами, Gemini 3 Flash, достигла совпадения с оценками врачей (коэффициент каппы Коэна = 0.694 против 0.709), хотя широкие доверительные интервалы ограничивают интерпретацию.
Автоматизированные оценчики демонстрировали практически полное отсутствие клинической метакогниции, присваивая окончательные баллы каждому случаю, тогда как врачи регулировали воздержание в зависимости от сложности элемента.
Исследование количественно оценило систематические смещения, зависящие от происхождения моделей, где модели предпочтительно оценивали архитектурных родственников, эффект, независимый от языка.

Результаты демонстрируют, что статистическое совпадение не гарантирует клинической осторожности и что независимость оценщиков требует явной проверки.