저자들은 CLIP 기반 시각 인코더에서 유형 공격을 완화하기 위한 교육 없는 방법을 제안합니다. 여기서 관련 없는 텍스트는 시각적 표현을 어휘적 의미로 편향시킵니다. 샘플링 기반 해석과 회로 마이닝을 사용하여 이 원치 않는 어휘 정보를 부호화하는 특정 Vision Transformer 구성 요소를 분리합니다.
- 이 방법은 확률적 분석을 통해 개별 어텐션 헤드의 의미적 초점과 어휘적 초점을 정량적으로 귀속합니다.
- 식별된 회로에 대한 간단한 개입은 추가 교육 없이 객체 분류의 강건성을 향상시킵니다.
- 이러한 개입은 지도 학습 및 기타 교육 없는 방어 방법보다 우수합니다.
- 이 방법을 최신 LVLM에 적용하면 유형 공격 간섭 하에서 RIO-Bench의 시각적 질문 응답 정확도가 크게 향상됩니다.
이 메커니즘 기반 접근 방식은 자율 주행과 같은 안전 중요 애플리케이션에서 텍스트 유도 편향에 대항하여 해석 가능하고 일반화 가능한 솔루션을 제공합니다.