Авторы предлагают метод, не требующий обучения, для смягчения типографических атак в визуальных кодировщиках на основе CLIP, где нерелевантный текст смещает визуальные представления в сторону лексического значения. Используя интерпретации на основе сэмплирования и майнинг цепей, подход изолирует конкретные компоненты Vision Transformer, ответственные за кодирование этой нежелательной лексической информации.

  • Метод количественно приписывает семантический и лексический фокус отдельным головам внимания через вероятностный анализ.
  • Простые вмешательства в выявленные цепи повышают устойчивость в классификации объектов без дополнительного обучения.
  • Эти вмешательства превосходят как методы защиты с учителем, так и другие методы без обучения.
  • Применение подхода к современным LVLM дает значительное улучшение точности визуального ответа на вопросы (VQA) на RIO-Bench при помехах от типографических атак.

Этот механистический подход обеспечивает интерпретируемое и обобщаемое решение для повышения безопасности критически важных приложений, таких как автономное вождение, против текстовых смещений.