Исследователи решают задачу многоизображенийной скрытой токсичности (MIIT), при которой вредоносная семантика проявляется только при совместном анализе безобидных изображений. Они представляют MIIT-dataset, новый набор данных для оценки безопасности, содержащий только изображения и охватывающий семь категорий рисков, и обучают модель MiShield выявлять эти угрозы.

  • Команда создала MIIT-dataset с помощью автоматического конвейера генерации, чтобы охватить семь репрезентативных категорий рисков.
  • MiShield обучается с использованием прогрессивно дистиллированного обучения рассуждениям для формирования явного анализа коррелированных сущностей, вызывающих угрозы.
  • Эксперименты показывают, что модели MiShield-8B превосходят репрезентативные сервисы модерации и модели большего масштаба.

Эта работа предлагает практическое решение для выявления скрытой токсичности в форматах нескольких изображений, которое часто упускается существующими коммерческими API из-за отсутствия явных признаков риска.