Исследование представляет MedQADE, стандартизированный открытый клинический бенчмарк для немецкого языка, включающий 3,800 элементов, аннотированных десятью врачами и девятью оценщиками LLM. Оно исследует, воспроизводят ли автоматизированные подходы LLM-as-a-Judge калибровку и осторожность человеческих клиницистов.

  • Модель с наилучшими результатами, Gemini 3 Flash, достигла совпадения с оценками врачей (коэффициент каппы Коэна = 0.694 против 0.709), хотя широкие доверительные интервалы ограничивают интерпретацию.
  • Автоматизированные оценчики демонстрировали практически полное отсутствие клинической метакогниции, присваивая окончательные баллы каждому случаю, тогда как врачи регулировали воздержание в зависимости от сложности элемента.
  • Исследование количественно оценило систематические смещения, зависящие от происхождения моделей, где модели предпочтительно оценивали архитектурных родственников, эффект, независимый от языка.

Результаты демонстрируют, что статистическое совпадение не гарантирует клинической осторожности и что независимость оценщиков требует явной проверки.