교육 없는 개념 국소화를 통한 유형 공격에 대한 강건성 toward

저자들은 CLIP 기반 시각 인코더에서 유형 공격을 완화하기 위한 교육 없는 방법을 제안합니다. 여기서 관련 없는 텍스트는 시각적 표현을 어휘적 의미로 편향시킵니다. 샘플링 기반 해석과 회로 마이닝을 사용하여 이 원치 않는 어휘 정보를 부호화하는 특정 Vision Transformer 구성 요소를 분리합니다.

이 방법은 확률적 분석을 통해 개별 어텐션 헤드의 의미적 초점과 어휘적 초점을 정량적으로 귀속합니다.
식별된 회로에 대한 간단한 개입은 추가 교육 없이 객체 분류의 강건성을 향상시킵니다.
이러한 개입은 지도 학습 및 기타 교육 없는 방어 방법보다 우수합니다.
이 방법을 최신 LVLM에 적용하면 유형 공격 간섭 하에서 RIO-Bench의 시각적 질문 응답 정확도가 크게 향상됩니다.

이 메커니즘 기반 접근 방식은 자율 주행과 같은 안전 중요 애플리케이션에서 텍스트 유도 편향에 대항하여 해석 가능하고 일반화 가능한 솔루션을 제공합니다.