El estudio presenta MedQADE, un benchmark clínico estandarizado de respuesta abierta para alemán que comprende 3.800 elementos anotados por diez médicos y nueve evaluadores de LLM. Investiga si los enfoques automatizados de LLM-as-a-Judge replican la calibración y precaución de los clínicos humanos.
- El modelo de mayor rendimiento, Gemini 3 Flash, logró alineación con las calificaciones de los médicos (kappa de Cohen = 0.694 frente a 0.709), aunque los amplios intervalos de confianza limitan la interpretación.
- Los evaluadores automatizados exhibieron una metacognición clínica casi ausente al asignar puntuaciones definitivas a cada caso, mientras que los médicos escalaron la abstención según la dificultad del elemento.
- El estudio cuantificó sesgos sistemáticos dependientes del linaje donde los modelos puntuaban preferentemente a hermanos arquitectónicos, un efecto independiente del idioma.
Los resultados demuestran que la alineación estadística no garantiza la precaución clínica y que la independencia del evaluador requiere verificación explícita.