トレーニング不要な概念局所化によるタイプグラフィック攻撃に対する堅牢性 toward

著者は、CLIPベースの視覚エンコーダーにおけるタイプグラフィック攻撃を緩和するためのトレーニング不要な手法を提案します。この手法では、無関係なテキストが視覚的表現を語彙的意味に偏らせます。サンプリングに基づく解釈とサーキットマイニングを使用することで、この望ましくない語彙情報を符号化する特定のVision Transformerコンポーネントを分離します。

この手法は、確率的解析を通じて個々のアテンションヘッドのセマンティック焦点と語彙的焦点を定量的に帰属します。
特定されたサーキットに対する単純な介入により、追加のトレーニングなしで物体分類の堅牢性が向上します。
これらの介入は、教師あり学習および他のトレーニング不要な防御手法を上回ります。
この手法を最先端のLVLMに適用すると、タイプグラフィック攻撃の干渉下でRIO-Benchにおける視覚的質問応答の精度が大幅に向上します。

このメカニズムベースのアプローチは、自動運転などの安全クリティカルなアプリケーションに対してテキスト起因のバイアスから保護する、解釈可能で汎用性の高いソリューションを提供します。