Les chercheurs s'attaquent au défi de la toxicité implicite multi-images (MIIT), où des sémantiques nuisibles émergent uniquement lorsque des images bénignes sont interprétées conjointement. Ils introduisent MIIT-dataset, un nouveau jeu de données de sécurité uniquement basé sur l'image couvrant sept catégories de risque, et entraînent MiShield pour identifier ces dangers.
- L'équipe construit MIIT-dataset en utilisant un pipeline de génération automatique pour couvrir sept catégories de risque représentatives.
- MiShield est entraîné avec une supervision de raisonnement progressivement distillée pour produire des analyses explicites des entités corrélées causant des dangers.
- Les expériences montrent que les modèles MiShield-8B surpassent les services de modération représentatifs et les modèles à plus grande échelle.
Ce travail fournit une solution pratique pour identifier la toxicité implicite dans les formats multi-images, que les API commerciales existantes manquent souvent en raison d'un manque de signaux de risque explicites.