نحو المتانة ضد الهجمات الطباعية مع توطين المفاهيم بدون تدريب

يقترح المؤلفون طريقة خالية من التدريب للتخفيف من الهجمات الطباعية في مشفرات الرؤية القائمة على CLIP، حيث تحرف النصوص غير ذات الصلة التمثيلات البصرية نحو المعنى المعجمي. باستخدام تفسيرات تعتمد على العينات واستخراج الدوائر، تعزل هذه الطريقة مكونات محددّة في Vision Transformer المسؤولة عن ترميز هذه المعلومات المعجمية غير المرغوب فيها.

تُنسب الطريقة كميًا التركيز الدلالي مقابل التركيز المعجمي إلى رؤوس الانتباه الفردية من خلال التحليل الاحتمالي.
تؤدي التدخلات البسيطة على الدوائر المحددة إلى تحسين المتانة في تصنيف الكائنات دون تدريب إضافي.
تتفوق هذه التدخلات على كل من طرق الدفاع الخاضعة للإشراف وطرق الدفاع الأخرى الخالية من التدريب.
يؤدي تطبيق النهج على LVLMs الأكثر تقدمًا إلى مكاسب كبيرة في دقة الإجابة على الأسئلة البصرية على RIO-Bench تحت تدخل هجوم طباعي.

يوفر هذا النهج الميكانيستي حلاً قابلاً للتفسير وقابلاً للتعميم لتعزيز التطبيقات الحرجة من حيث السلامة مثل القيادة الذاتية ضد التحيزات المستحثة بالنص.