Los investigadores abordan el desafío de la toxicidad implícita en múltiples imágenes (MIIT), donde las semánticas dañinas emergen solo cuando se interpretan conjuntamente imágenes inofensivas. Introducen MIIT-dataset, un nuevo conjunto de datos de seguridad solo con imágenes que cubre siete categorías de riesgo, y entrenan a MiShield para identificar estos peligros.
- El equipo construye MIIT-dataset utilizando un pipeline de generación automática para cubrir siete categorías de riesgo representativas.
- MiShield se entrena con supervisión de razonamiento progresivamente destilada para producir análisis explícitos de las entidades correlacionadas que causan peligros.
- Los experimentos muestran que los modelos MiShield-8B superan a los servicios de moderación representativos y a los modelos de mayor escala.
Este trabajo proporciona una solución práctica para identificar la toxicidad implícita en formatos de múltiples imágenes, que las API comerciales existentes a menudo pasan por alto debido a la falta de indicios explícitos de riesgo.