Os autores propõem um método sem treinamento para mitigar ataques tipográficos em codificadores visuais baseados em CLIP, onde o texto irrelevante tende as representações visuais em direção ao significado léxico. Ao usar interpretações baseadas em amostragem e mineração de circuitos, a abordagem isola componentes específicos do Vision Transformer responsáveis por codificar essa informação léxica indesejada.
- O método atribui quantitativamente o foco semântico versus lexical a cabeças de atenção individuais por meio de análise probabilística.
- Intervenções simples nos circuitos identificados melhoram a robustez na classificação de objetos sem treinamento adicional.
- Essas intervenções superam tanto métodos de defesa supervisionados quanto outros métodos sem treinamento.
- Aplicar a abordagem aos LVLMs mais recentes resulta em ganhos substanciais na precisão de Resposta a Perguntas Visuais no RIO-Bench sob interferência de ataques tipográficos.
Esta abordagem mecanicista fornece uma solução interpretável e generalizável para aprimorar aplicações críticas para segurança, como direção autônoma, contra vieses induzidos por texto.