Авторы предлагают метод, не требующий обучения, для смягчения типографических атак в визуальных кодировщиках на основе CLIP, где нерелевантный текст смещает визуальные представления в сторону лексического значения. Используя интерпретации на основе сэмплирования и майнинг цепей, подход изолирует конкретные компоненты Vision Transformer, ответственные за кодирование этой нежелательной лексической информации.
- Метод количественно приписывает семантический и лексический фокус отдельным головам внимания через вероятностный анализ.
- Простые вмешательства в выявленные цепи повышают устойчивость в классификации объектов без дополнительного обучения.
- Эти вмешательства превосходят как методы защиты с учителем, так и другие методы без обучения.
- Применение подхода к современным LVLM дает значительное улучшение точности визуального ответа на вопросы (VQA) на RIO-Bench при помехах от типографических атак.
Этот механистический подход обеспечивает интерпретируемое и обобщаемое решение для повышения безопасности критически важных приложений, таких как автономное вождение, против текстовых смещений.