Mejora de la calibración de incertidumbre verbalizada en VQA médica
Este trabajo aborda la tendencia de los modelos de lenguaje multimodales grandes a producir salidas excesivamente seguras en la Respuesta Visual Médica a Preguntas, proponiendo un marco basado en entrenamiento que ajusta finamente estos modelos para una mejor calibración. El método emplea una función de pérdida compuesta que combina calibración estilo Brier, regularización de anclas, alineación contrasteiva de imagen-texto y términos de divergencia KL para alinear la confianza del modelo con la corrección real.