研究者たちは、複数の画像を結合して解釈した際にのみ有害な意味が生じる多画像暗黙的毒性(MIIT)という課題に取り組んでいる。彼らは7つのリスクカテゴリをカバーする新しい画像のみの安全性データセットであるMIIT-datasetを導入し、これらの脅威を特定するためにMiShieldを訓練した。
- チームは、7つの代表的なリスクカテゴリをカバーするために自動生成パイプラインを使用してMIIT-datasetを構築した。
- MiShieldは、相関エンティティによる脅威の明示的な分析を生み出すために、段階的に蒸留された推論監督で訓練されている。
- 実験により、MiShield-8Bモデルが代表的なモデレーションサービスや大規模モデルを上回るパフォーマンスを示すことが示された。
この研究は、既存の商用APIが明示的なリスクの手がかりの欠如のために見逃しがちな、複数画像形式における暗黙的毒性を特定するための実用的な解決策を提供する。