MedQADE 벤치마크에서 통계적 정렬에도 불구하고 LLM 평가자는 임상적 신중함을 결여하고 있음

이 연구는 독일어를 대상으로 하는 표준화된 오픈 응답 임상 벤치마크인 MedQADE를 소개하며, 10명의 의사 및 9명의 LLM 평가자가 주석을 달아 총 3,800개의 항목으로 구성되었습니다. 이 연구는 자동화된 LLM-as-a-Judge 접근 방식이 인간 임상의의 교정(calibration)과 신중함을 재현할 수 있는지 조사합니다.

최고 성능 모델인 Gemini 3 Flash는 의사 평가와의 정렬을 달성했습니다(Cohen's kappa = 0.694 vs. 0.709). 그러나 광범위한 신뢰 구간이 해석을 제한합니다.
자동화된 평가자는 모든 사례에 확정적인 점수를 부여함으로써 임상적 메타인지가 거의 결여된 모습을 보였습니다. 반면 의사는 항목의 난이도에 기반하여 Abstention(중립/거부)를 조정했습니다.
이 연구는 모델이 아키텍처적으로 형제 관계인 모델을 선호하여 평가하는 체계적인 계통 의존 편향을 정량화했으며, 이 효과는 언어와 무관합니다.

이 결과는 통계적 정렬이 임상적 신중함을 보장하지 않으며, 평가자의 독립성은 명시적인 검증이 필요함을 보여줍니다.