Les évaluateurs LLM manquent de prudence clinique malgré l'alignement statistique dans le benchmark MedQADE

L'étude présente MedQADE, un benchmark clinique standardisé à réponses ouvertes pour l'allemand, composé de 3 800 éléments annotés par dix médecins et neuf évaluateurs LLM. Elle examine si les approches automatisées de type LLM-as-a-Judge reproduisent la calibration et la prudence des cliniciens humains.

Le modèle performant, Gemini 3 Flash, a atteint un alignement avec les évaluations des médecins (kappa de Cohen = 0,694 vs. 0,709), bien que des intervalles de confiance larges limitent l'interprétation.
Les évaluateurs automatisés ont montré une absence quasi-totale de métacognition clinique en attribuant des scores définitifs à chaque cas, tandis que les médecins ont ajusté leur abstention en fonction de la difficulté des éléments.
L'étude a quantifié des biais systématiques dépendants de la lignée, où les modèles privilégient l'évaluation des frères architecturaux, un effet indépendant de la langue.

Les résultats démontrent que l'alignement statistique ne garantit pas la prudence clinique et que l'indépendance des évaluateurs nécessite une vérification explicite.