La evaluación SHOVIR mide el aprendizaje de atajos visuales en la generación de informes radiológicos al extender MIMIC-CXR y PadChest-GR con etiquetas CheXpert por cuadro. Utiliza experimentos de oclusión a nivel de imagen y de enfermedad para aislar atajos directos y contextuales donde los modelos dependen de correlaciones espurias en lugar de evidencia visual real.

  • SHOVIR extiende dos conjuntos de datos de radiografías de tórax con anotaciones espaciales, MIMIC-CXR y PadChest-GR, con etiquetas CheXpert por cuadro.
  • La evaluación define experimentos de oclusión a nivel de imagen y de enfermedad que contrastan el rendimiento base contra perturbaciones localizadas y específicas de región.
  • Aísla dos modos de fallo: atajos directos donde los hallazgos persisten tras la eliminación de la evidencia visual, y atajos contextuales donde la detección se degrada cuando las patologías coexistentes están ocultas.
  • La evaluación de ocho VLMs de última generación revela que el comportamiento de atajo varía sustancialmente entre arquitecturas y conjuntos de datos.
  • Los modelos con mayor calidad de informe base no necesariamente obtienen los mejores resultados en anclaje espacial, mostrando que la generación clínicamente fluida puede coexistir con una dependencia superficial de la evidencia visual.

Estos hallazgos exponen un punto ciego en la evaluación actual de RRG y motivan protocolos de evaluación conscientes de la región para asegurar que los modelos dependan de evidencia patológica real.