Evaluator LLM kurang berhati-hati secara klinis meskipun ada keselarasan statistik dalam benchmark MedQADE

Studi ini memperkenalkan MedQADE, sebuah benchmark klinis respons terbuka yang terstandarisasi untuk bahasa Jerman yang terdiri dari 3.800 item yang dianotasi oleh sepuluh dokter dan sembilan evaluator LLM. Studi ini menyelidiki apakah pendekatan otomatis LLM-as-a-Judge mereplikasi kalibrasi dan kehati-hatian klinisi manusia.

Model dengan kinerja terbaik, Gemini 3 Flash, mencapai keselarasan dengan penilaian dokter (Cohen's kappa = 0,694 vs. 0,709), meskipun interval kepercayaan yang lebar membatasi interpretasi.
Evaluator otomatis menunjukkan hampir tidak adanya metakognisi klinis dengan memberikan skor definitif untuk setiap kasus, sedangkan dokter menyesuaikan abstention berdasarkan kesulitan item.
Studi ini mengkuantifikasi bias sistemik yang bergantung pada garis keturunan, di mana model lebih memilih untuk menilai saudara arsitektural, efek yang independen dari bahasa.

Hasilnya menunjukkan bahwa keselarasan statistik tidak menjamin kehati-hatian klinis dan bahwa independensi evaluator memerlukan verifikasi eksplisit.