Los evaluadores de LLM carecen de precaución clínica a pesar de la alineación estadística en el benchmark MedQADE

El estudio presenta MedQADE, un benchmark clínico estandarizado de respuesta abierta para alemán que comprende 3.800 elementos anotados por diez médicos y nueve evaluadores de LLM. Investiga si los enfoques automatizados de LLM-as-a-Judge replican la calibración y precaución de los clínicos humanos.

El modelo de mayor rendimiento, Gemini 3 Flash, logró alineación con las calificaciones de los médicos (kappa de Cohen = 0.694 frente a 0.709), aunque los amplios intervalos de confianza limitan la interpretación.
Los evaluadores automatizados exhibieron una metacognición clínica casi ausente al asignar puntuaciones definitivas a cada caso, mientras que los médicos escalaron la abstención según la dificultad del elemento.
El estudio cuantificó sesgos sistemáticos dependientes del linaje donde los modelos puntuaban preferentemente a hermanos arquitectónicos, un efecto independiente del idioma.

Los resultados demuestran que la alineación estadística no garantiza la precaución clínica y que la independencia del evaluador requiere verificación explícita.