通过免训练概念定位实现针对排版攻击的鲁棒性

作者提出了一种无需训练的免训练方法，以缓解基于CLIP的视觉编码器中的排版攻击，其中无关文本会将视觉表示偏向于词汇意义。通过使用基于采样的解释和电路挖掘，该方法隔离了负责编码此 unwanted 词汇信息的具体 Vision Transformer 组件。

这种机制性方法为增强自动驾驶等安全关键应用提供了可解释且可泛化的解决方案，以应对文本引起的偏差。