Los modelos de visión y lenguaje no siempre necesitan imágenes para la precisión en radiografías de tórax

Una auditoría causal muestra que muchos modelos de visión y lenguaje logran alta precisión en radiografías de tórax sin usar imágenes. Los modelos solo de texto igualan a los modelos multimodales en rendimiento y los superan en fundamentación, con indicadores de precisión y confianza que solo aparecen cuando se usa la imagen. Estos hallazgos sugieren que la precisión por sí sola es insuficiente para validar el despliegue clínico, y debe evaluarse la fundamentación.