تقدم الدراسة MedQADE، وهو معيار سريري موحد للإجابات المفتوحة باللغة الألمانية يتكون من 3,800 عنصر مُعلَّم من قبل عشرة أطباء وتسعة مُقيِّمين LLM. تبحث الدراسة فيما إذا كانت نهج LLM-as-a-Judge الآلية تُعيد إنتاج المعايرة والحذر لدى الأطباء البشر.
- حقق النموذج الأعلى أداءً، Gemini 3 Flash، محاذاة مع تقييمات الأطباء (كابتا لـ Cohen = 0.694 مقابل 0.709)، على الرغم من أن فترات الثقة الواسعة تحدّ من التفسير.
- أظهر المُقيِّمون الآليون غيابًا شبه كامل للوعي الذاتي السريري من خلال منح درجات حاسمة لكل حالة، بينما قام الأطباء بضبط الامتناع (Abstention) بناءً على صعوبة العنصر.
- قاست الدراسة التحيزات المنهجية المعتمدة على النسب، حيث تفضل النماذج تقييم الأشقاء المعماريين، وهو تأثير مستقل عن اللغة.
تُظهر النتائج أن المحاذاة الإحصائية لا تضمن الحذر السريري وأن استقلالية المُقيِّم تتطلب تحققًا صريحًا.