लेखकों ने CLIP-आधारित विज़ुअल एन्कोडर्स में टाइपोग्राफिक हमलों को कम करने के लिए एक प्रशिक्षण-मुक्त विधि का प्रस्ताव किया है, जहां अनावश्यक पाठ दृश्य निरूपणों को शब्दार्थी अर्थ की ओर झुका देता है। सैंपलिंग-आधारित व्याख्याओं और सर्किट खनन का उपयोग करके, दृष्टिकोण विशिष्ट विज़न ट्रांसफॉर्मर घटकों को अलग करता है जो इस अवांछित शब्दार्थी जानकारी को एन्कोड करने के लिए जिम्मेदार हैं।
- विधि संभाव्य विश्लेषण के माध्यम से व्यक्तिगत ध्यान हेड्स में अर्थपूर्ण बनाम शब्दार्थी फोकस की मात्रात्मक रूप से विशेषता देती है।
- पहचाने गए सर्किट्स पर सरल हस्तक्षेप अतिरिक्त प्रशिक्षण के बिना वस्तु वर्गीकरण में मजबूती को बढ़ाते हैं।
- ये हस्तक्षेक निगरानी और अन्य प्रशिक्षण-मुक्त रक्षा विधियों दोनों से बेहतर प्रदर्शन करते हैं।
- राज्य-के-अग्रणी LVLMs पर दृष्टिकोण लागू करने से टाइपोग्राफिक हमल हस्तक्षेप के तहत RIO-Bench पर दृश्य प्रश्न उत्तर सटीकता में महत्वपूर्ण लाभ होता है।
यह यांत्रिक दृष्टिकोण स्वचालित ड्राइविंग जैसे सुरक्षा-महत्वपूर्ण अनुप्रयोगों को पाठ-प्रेरित पूर्वाग्रहों के खिलाफ बढ़ाने के लिए व्याख्या योग्य और सामान्यीकरण योग्य समाधान प्रदान करता है।