MiShield detecta toxicidad implícita en múltiples imágenes analizando entidades correlacionadas

Los investigadores abordan el desafío de la toxicidad implícita en múltiples imágenes (MIIT), donde las semánticas dañinas emergen solo cuando se interpretan conjuntamente imágenes inofensivas. Introducen MIIT-dataset, un nuevo conjunto de datos de seguridad solo con imágenes que cubre siete categorías de riesgo, y entrenan a MiShield para identificar estos peligros.

El equipo construye MIIT-dataset utilizando un pipeline de generación automática para cubrir siete categorías de riesgo representativas.
MiShield se entrena con supervisión de razonamiento progresivamente destilada para producir análisis explícitos de las entidades correlacionadas que causan peligros.
Los experimentos muestran que los modelos MiShield-8B superan a los servicios de moderación representativos y a los modelos de mayor escala.

Este trabajo proporciona una solución práctica para identificar la toxicidad implícita en formatos de múltiples imágenes, que las API comerciales existentes a menudo pasan por alto debido a la falta de indicios explícitos de riesgo.