Os pesquisadores abordam o desafio da toxicidade implícita em múltiplas imagens (MIIT), onde semânticas prejudiciais emergem apenas quando imagens inofensivas são interpretadas conjuntamente. Eles introduzem o MIIT-dataset, um novo conjunto de dados de segurança apenas com imagens que cobre sete categorias de risco, e treinam o MiShield para identificar esses perigos.
- A equipe constrói o MIIT-dataset usando um pipeline de geração automática para cobrir sete categorias de risco representativas.
- O MiShield é treinado com supervisão de raciocínio progressivamente destilada para produzir análises explícitas das entidades correlacionadas que causam perigos.
- Experimentos mostram que os modelos MiShield-8B superam serviços de moderação representativos e modelos de maior escala.
Este trabalho fornece uma solução prática para identificar toxicidade implícita em formatos de múltiplas imagens, que as APIs comerciais existentes frequentemente perdem devido à falta de indícios explícitos de risco.