MedBench v5 introduce un benchmark dinámico y orientado al proceso para modelos multimodales clínicos, con capacidad de respuesta cognitiva clínica y habilidades atómicas en 63 tareas. Incluye estresores para análisis de degradación y monitorea la propagación de alucinaciones a través de cinco nodos de razonamiento, revelando que un alto rendimiento en tareas no garantiza estabilidad del proceso.
MedBench v5: Benchmark dinámico para IA clínica
Traducido del English → Español