Un benchmark con modelos de lenguaje grande multimodales eficientes evalúa el diagnóstico y la predicción de riesgo de EP en el conjunto de datos INSPECT. Los resultados muestran que Gemma4 E4B y E2B superan a otros cuando hay datos de EHR, logrando una mayor precisión en el diagnóstico de EP que en tareas pronósticas como la predicción de readmisión.