研究人员解决了多图隐式毒性(MIIT)的挑战,其中有害语义仅在联合解释无害图像时才会显现。他们引入了MIIT-dataset,这是一个仅包含图像的新安全数据集,涵盖七类风险,并训练MiShield来识别这些危害。

  • 团队使用自动生成分支构建MIIT-dataset,以覆盖七类代表性风险类别。
  • MiShield通过渐进式蒸馏推理监督进行训练,以生成导致危害的相关实体的显式分析。
  • 实验表明,MiShield-8B模型优于代表性的审核服务和更大规模的模型。

这项工作为识别多图格式中的隐式毒性提供了实用解决方案,而现有的商业API由于缺乏显式的风险线索,往往无法检测到这一点。