Avaliadores de LLM carecem de cautela clínica apesar do alinhamento estatístico no benchmark MedQADE

O estudo apresenta o MedQADE, um benchmark clínico padronizado de resposta aberta para alemão composto por 3.800 itens anotados por dez médicos e nove avaliadores de LLM. Ele investiga se as abordagens automatizadas de LLM-as-a-Judge replicam a calibração e cautela dos clínicos humanos.

O modelo de melhor desempenho, Gemini 3 Flash, alcançou alinhamento com as avaliações dos médicos (kappa de Cohen = 0.694 vs. 0.709), embora intervalos de confiança amplos limitem a interpretação.
Os avaliadores automatizados exibiram metacognição clínica quase ausente ao atribuir escores definitivos a cada caso, enquanto os médicos escalonaram a abstenção com base na dificuldade do item.
O estudo quantificou vieses sistemáticos dependentes da linhagem onde os modelos pontuavam preferencialmente irmãos arquitetônicos, um efeito independente do idioma.

Os resultados demonstram que o alinhamento estatístico não garante cautela clínica e que a independência do avaliador requer verificação explícita.