Los modelos de visión y lenguaje no siempre necesitan imágenes para la precisión en radiografías de tórax

Una auditoría causal muestra que los modelos solo de texto igualan a los modelos multimodales en precisión de radiografía torácica. En nueve sistemas, un modelo solo de texto se mantiene dentro de 5.7 puntos del mejor modelo multimodal, y un modelo de 119 mil millones de parámetros es indistinguible de una línea base solo de texto de 7 mil millones de parámetros. Las auditorías de fundamentación, no la precisión, deben determinar el despliegue clínico.