作者提出了一种无需训练的免训练方法,以缓解基于CLIP的视觉编码器中的排版攻击,其中无关文本会将视觉表示偏向于词汇意义。通过使用基于采样的解释和电路挖掘,该方法隔离了负责编码此 unwanted 词汇信息的具体 Vision Transformer 组件。

  • 该方法通过概率分析定量地将语义与词汇焦点归因于各个注意力头。
  • 对已识别电路的简单干预可在无需额外训练的情况下提高对象分类的鲁棒性。
  • 这些干预措施优于监督和其他免训练防御方法。
  • 将该方法应用于最先进的 LVLMs,在排版攻击干扰下,RIO-Bench 上的视觉问答准确率获得了显著提升。

这种机制性方法为增强自动驾驶等安全关键应用提供了可解释且可泛化的解决方案,以应对文本引起的偏差。