Vision-Default, Prior-Override: Mecanismos causales del conflicto entre percepción y conocimiento en modelos de visión-lenguaje

Este estudio investiga cómo los modelos de visión-lenguaje resuelven conflictos entre evidencia visual y conocimiento mundial memorizado combinando parcheo de activación con análisis mecanicista a través de tres familias de modelos. La investigación identifica un circuito causal disperso donde el anclaje visual es el predeterminado, mientras que sobrescribirlo con conocimiento previo requiere cabezales de atención específicos.

El anclaje visual emerge por defecto, mientras que el anclaje previo depende de un pequeño conjunto de cabezales de atención causalmente necesarios (2.5-4.8%) concentrados en la segunda mitad de la red.
Estos cabezales permiten respuestas basadas en conocimiento mundial almacenado a pesar de la entrada visual conflictiva, estableciendo una estructura causal asimétrica.
La ablación de estos cabezales invierte las predicciones de respuestas ancladas al conocimiento a respuestas ancladas visualmente en el 68-96% de los casos bajo indicaciones de conocimiento previo.
Los cabezales identificados se descomponen en cabezales de enrutamiento que modulan el flujo de información y cabezales de escritura que proyectan directamente los tokens de respuesta en la corriente residual.

Esta estructura es consistente a través de familias de modelos y escalas, revelando un circuito causal disperso subyacente al conflicto entre percepción y conocimiento en VLMs.