연구자들은 유해한 의미가 양호한 이미지들을 함께 해석할 때만 나타나는 다중 이미지 암시적 독성(MIIT)이라는 과제에 대응했습니다. 그들은 7가지 위험 카테고리를 아우르는 새로운 이미지 전용 안전 데이터셋인 MIIT-dataset을 도입하고, 이러한 위협을 식별하기 위해 MiShield를 훈련시켰습니다.
- 팀은 자동 생성 파이프라인을 사용하여 7가지 대표 위험 카테고리를 커버하는 MIIT-dataset을 구축했습니다.
- MiShield는 상관 엔티티로 인한 위협에 대한 명시적 분석을 생성하기 위해 점진적으로 증류된 추론 감독으로 훈련되었습니다.
- 실험 결과, MiShield-8B 모델이 대표적인 검열 서비스 및 대규모 모델보다 우수한 성능을 보임이 입증되었습니다.
본 연구는 기존 상용 API들이 명시적인 위험 신호의 부재로 인해 놓치기 쉬운 다중 이미지 형식의 암시적 독성을 식별하기 위한 실용적인 해결책을 제공합니다.