अध्ययन MedQADE पेश करता है, जर्मन के लिए एक मानकीकृत खुले-उत्तर नैदानिक बेंचमार्क जिसमें दस चिकित्सकों और नौ LLM मूल्यांकनकर्ताओं द्वारा टिप्पणी किए गए 3,800 आइटम शामिल हैं। यह जांच करता है कि स्वचालित LLM-as-a-Judge दृष्टिकोण मानव चिकित्सकों के कैलिब्रेशन और सावधानी को पुन: उत्पन्न करते हैं या नहीं।
- शीर्ष प्रदर्शन करने वाला मॉडल, Gemini 3 Flash, चिकित्सकों की रेटिंग के साथ संरेखण प्राप्त किया (Cohen's kappa = 0.694 बनाम 0.709), हालांकि चौड़े आत्मविश्वास अंतराल व्याख्या को सीमित करते हैं।
- स्वचालित मूल्यांकनकर्ताओं ने हर मामले के लिए निश्चित स्कोर देने में नैदानिक मेटासंज्ञान लगभग अनुपस्थित दिखाया, जबकि चिकित्सकों ने आइटम की कठिनाई के आधार पर त्याग को स्केल किया।
- अध्ययन ने प्रणालीगत वंशावली-निर्भर पक्षपातों को मात्रात्मक रूप दिया जहां मॉडल संरचनात्मक भाइयों को प्राथमिकता देकर स्कोर करते थे, जो भाषा से स्वतंत्र एक प्रभाव है।
परिणाम दर्शाते हैं कि सांख्यिकीय संरेखण नैदानिक सावधानी की गारंटी नहीं देता है और मूल्यांकनकर्ता की स्वतंत्रता के लिए स्पष्ट सत्यापन की आवश्यकता है।