MiShield는 상관 엔티티 분석을 통해 다중 이미지의 암시적 독성을 감지합니다

연구자들은 유해한 의미가 양호한 이미지들을 함께 해석할 때만 나타나는 다중 이미지 암시적 독성(MIIT)이라는 과제에 대응했습니다. 그들은 7가지 위험 카테고리를 아우르는 새로운 이미지 전용 안전 데이터셋인 MIIT-dataset을 도입하고, 이러한 위협을 식별하기 위해 MiShield를 훈련시켰습니다.

팀은 자동 생성 파이프라인을 사용하여 7가지 대표 위험 카테고리를 커버하는 MIIT-dataset을 구축했습니다.
MiShield는 상관 엔티티로 인한 위협에 대한 명시적 분석을 생성하기 위해 점진적으로 증류된 추론 감독으로 훈련되었습니다.
실험 결과, MiShield-8B 모델이 대표적인 검열 서비스 및 대규모 모델보다 우수한 성능을 보임이 입증되었습니다.

본 연구는 기존 상용 API들이 명시적인 위험 신호의 부재로 인해 놓치기 쉬운 다중 이미지 형식의 암시적 독성을 식별하기 위한 실용적인 해결책을 제공합니다.