MedQADEベンチマークにおける統計的整合性にもかかわらず、LLM評価者は臨床的な慎重さを欠いている

本研究は、ドイツ語を対象とした標準化されたオープンエンドの臨床ベンチマークであるMedQADEを紹介しており、10人の医師と9人のLLM評価者によって注釈が付けられた3,800件の項目で構成されています。この研究は、自動化されたLLM-as-a-Judgeのアプローチが、人間の臨床医の較正と慎重さを再現できるかどうかを調査しています。

最高性能のモデルであるGemini 3 Flashは、医師の評価との整合性を達成しました（Cohen's kappa = 0.694 vs. 0.709）。ただし、広い信頼区間が解釈を制限しています。
自動化された評価者は、すべての症例に確定的なスコアを割り当てることで、臨床的なメタ認知がほぼ欠如していることを示しました。一方、医師は項目の難易度に基づいてAbstention（回答拒否）をスケールしていました。
本研究は、モデルがアーキテクチャ的に兄弟関係にあるものを優先的に評価するという、系統に依存した系統的バイアスを定量化しました。この効果は言語に依存しません。

これらの結果は、統計的整合性が臨床的な慎重さを保証するものではなく、評価者の独立性には明示的な検証が必要であることを示しています。