MiShield détecte la toxicité implicite multi-images en analysant les entités corrélées

Les chercheurs s'attaquent au défi de la toxicité implicite multi-images (MIIT), où des sémantiques nuisibles émergent uniquement lorsque des images bénignes sont interprétées conjointement. Ils introduisent MIIT-dataset, un nouveau jeu de données de sécurité uniquement basé sur l'image couvrant sept catégories de risque, et entraînent MiShield pour identifier ces dangers.

L'équipe construit MIIT-dataset en utilisant un pipeline de génération automatique pour couvrir sept catégories de risque représentatives.
MiShield est entraîné avec une supervision de raisonnement progressivement distillée pour produire des analyses explicites des entités corrélées causant des dangers.
Les expériences montrent que les modèles MiShield-8B surpassent les services de modération représentatifs et les modèles à plus grande échelle.

Ce travail fournit une solution pratique pour identifier la toxicité implicite dans les formats multi-images, que les API commerciales existantes manquent souvent en raison d'un manque de signaux de risque explicites.