Em direção à robustez contra ataques tipográficos com localização de conceitos sem treinamento

Os autores propõem um método sem treinamento para mitigar ataques tipográficos em codificadores visuais baseados em CLIP, onde o texto irrelevante tende as representações visuais em direção ao significado léxico. Ao usar interpretações baseadas em amostragem e mineração de circuitos, a abordagem isola componentes específicos do Vision Transformer responsáveis por codificar essa informação léxica indesejada.

O método atribui quantitativamente o foco semântico versus lexical a cabeças de atenção individuais por meio de análise probabilística.
Intervenções simples nos circuitos identificados melhoram a robustez na classificação de objetos sem treinamento adicional.
Essas intervenções superam tanto métodos de defesa supervisionados quanto outros métodos sem treinamento.
Aplicar a abordagem aos LVLMs mais recentes resulta em ganhos substanciais na precisão de Resposta a Perguntas Visuais no RIO-Bench sob interferência de ataques tipográficos.

Esta abordagem mecanicista fornece uma solução interpretável e generalizável para aprimorar aplicações críticas para segurança, como direção autônoma, contra vieses induzidos por texto.