Este trabajo aborda la tendencia de los modelos de lenguaje multimodales grandes a producir salidas excesivamente seguras en la Respuesta Visual Médica a Preguntas, proponiendo un marco basado en entrenamiento que ajusta finamente estos modelos para una mejor calibración. El método emplea una función de pérdida compuesta que combina calibración estilo Brier, regularización de anclas, alineación contrasteiva de imagen-texto y términos de divergencia KL para alinear la confianza del modelo con la corrección real.

  • El marco utiliza un diseño de perturbación factorial $2 \times 2$ cruzando la presencia de imagen con la integridad del texto para explorar la dependencia de entradas visuales frente a las de lenguaje.
  • Se aplica un regularizador de divergencia KL top K para proteger la capacidad de respuesta del modelo durante el ajuste fino.
  • Los experimentos en tres conjuntos de datos y dos arquitecturas (MedGemma 4B IT y Qwen2 VL 7B Instruct) muestran una reducción del error de calibración en más del 60% y una mejora en la discriminación en más del 26%.
  • El enfoque supera a las técnicas de prompting, muestreo y otros métodos basados en entrenamiento mientras preserva la precisión predictiva, con todo el código disponible públicamente.

Esta técnica ayuda a garantizar que la confianza expresada por los modelos de IA médica refleje con precisión su rendimiento real, lo cual es crítico para un apoyo confiable a la decisión clínica.