Hacia la robustez frente a ataques tipográficos con localización de conceptos sin entrenamiento

Los autores proponen un método sin entrenamiento para mitigar ataques tipográficos en codificadores visuales basados en CLIP, donde el texto irrelevante sesga las representaciones visuales hacia el significado léxico. Mediante interpretaciones basadas en muestreo y minería de circuitos, el enfoque aísla componentes específicos del Vision Transformer responsables de codificar esta información léxica no deseada.

El método atribuye cuantitativamente el enfoque semántico frente al léxico a cabezas de atención individuales mediante análisis probabilístico.
Intervenciones simples en los circuitos identificados mejoran la robustez en la clasificación de objetos sin entrenamiento adicional.
Estas intervenciones superan tanto a los métodos de defensa supervisados como a otros métodos sin entrenamiento.
Aplicar el enfoque a LVLMs de última generación produce ganancias sustanciales en la precisión de Respuesta a Preguntas Visuales en RIO-Bench bajo interferencia de ataques tipográficos.

Este enfoque mecanicista proporciona una solución interpretable y generalizable para mejorar aplicaciones críticas para la seguridad, como la conducción autónoma, frente a sesgos inducidos por texto.