Menuju Robustness terhadap Serangan Tipografi dengan Lokalisasi Konsep Tanpa Pelatihan

Para penulis mengusulkan metode tanpa pelatihan untuk mengurangi serangan tipografi dalam encoder visi berbasis CLIP, di mana teks yang tidak relevan membiaskan representasi visual menuju makna leksikal. Dengan menggunakan interpretasi berbasis sampling dan penambangan sirkuit, pendekatan ini mengisolasi komponen Vision Transformer tertentu yang bertanggung jawab atas pengodean informasi leksikal yang tidak diinginkan ini.

Metode ini secara kuantitatif mengaitkan fokus semantik versus leksikal ke kepala perhatian individu melalui analisis probabilistik.
Intervensi sederhana pada sirkuit yang diidentifikasi meningkatkan robustness dalam klasifikasi objek tanpa pelatihan tambahan.
Intervensi ini melebihi metode pertahanan terawasi dan lainnya tanpa pelatihan.
Menerapkan pendekatan ini pada LVLM terkini menghasilkan peningkatan substansial dalam akurasi Jawaban Pertanyaan Visual pada RIO-Bench di bawah gangguan serangan tipografi.

Pendekatan mekanistik ini memberikan solusi yang dapat diinterpretasikan dan dapat digeneralisasi untuk meningkatkan aplikasi kritis terhadap keamanan seperti mengemudi otonom terhadap bias yang disebabkan oleh teks.