Vers la robustesse contre les attaques typographiques avec la localisation de concepts sans entraînement

Les auteurs proposent une méthode sans entraînement pour atténuer les attaques typographiques dans les encodeurs visuels basés sur CLIP, où le texte non pertinent biaise les représentations visuelles vers le sens lexical. En utilisant des interprétations par échantillonnage et le minage de circuits, l'approche isole les composants spécifiques du Vision Transformer responsables de l'encodage de ces informations lexicales indésirables.

La méthode attribue quantitativement la focalisation sémantique versus lexicale aux têtes d'attention individuelles par analyse probabiliste.
Des interventions simples sur les circuits identifiés améliorent la robustesse dans la classification d'objets sans entraînement supplémentaire.
Ces interventions surpassent à la fois les méthodes de défense supervisées et autres sans entraînement.
L'application de l'approche aux LVLMs les plus avancés entraîne des gains substantiels en précision de réponse aux questions visuelles sur RIO-Bench sous interférence d'attaque typographique.

Cette approche mécaniste fournit une solution interprétable et généralisable pour renforcer la sécurité dans des applications critiques comme la conduite autonome contre les biais induits par le texte.