К устойчивости к типографическим атакам с помощью обучения без тренировки и локализации концепций

Авторы предлагают метод, не требующий обучения, для смягчения типографических атак в визуальных кодировщиках на основе CLIP, где нерелевантный текст смещает визуальные представления в сторону лексического значения. Используя интерпретации на основе сэмплирования и майнинг цепей, подход изолирует конкретные компоненты Vision Transformer, ответственные за кодирование этой нежелательной лексической информации.

Метод количественно приписывает семантический и лексический фокус отдельным головам внимания через вероятностный анализ.
Простые вмешательства в выявленные цепи повышают устойчивость в классификации объектов без дополнительного обучения.
Эти вмешательства превосходят как методы защиты с учителем, так и другие методы без обучения.
Применение подхода к современным LVLM дает значительное улучшение точности визуального ответа на вопросы (VQA) на RIO-Bench при помехах от типографических атак.

Этот механистический подход обеспечивает интерпретируемое и обобщаемое решение для повышения безопасности критически важных приложений, таких как автономное вождение, против текстовых смещений.