该研究引入了MedQADE,这是一个针对德语的标准化开放式回答临床基准测试,包含由10名医生和9名LLM评估者标注的3,800个项目。它调查了自动化的LLM-as-a-Judge方法是否复制了人类临床医生的校准和谨慎性。
- 表现最好的模型Gemini 3 Flash实现了与医生评分的对齐(Cohen's kappa = 0.694 vs. 0.709),尽管宽泛的置信区间限制了解释。
- 自动化评估者在分配确定性分数给每个案例时表现出近乎缺失的临床元认知,而医生则根据项目难度调整弃权程度。
- 该研究量化了系统性的谱系依赖偏差,模型倾向于优先评分架构上的兄弟模型,这种效应与语言无关。
结果表明,统计对齐并不能确保临床谨慎性,评估者的独立性需要明确验证。