Исследователи решают задачу многоизображенийной скрытой токсичности (MIIT), при которой вредоносная семантика проявляется только при совместном анализе безобидных изображений. Они представляют MIIT-dataset, новый набор данных для оценки безопасности, содержащий только изображения и охватывающий семь категорий рисков, и обучают модель MiShield выявлять эти угрозы.
- Команда создала MIIT-dataset с помощью автоматического конвейера генерации, чтобы охватить семь репрезентативных категорий рисков.
- MiShield обучается с использованием прогрессивно дистиллированного обучения рассуждениям для формирования явного анализа коррелированных сущностей, вызывающих угрозы.
- Эксперименты показывают, что модели MiShield-8B превосходят репрезентативные сервисы модерации и модели большего масштаба.
Эта работа предлагает практическое решение для выявления скрытой токсичности в форматах нескольких изображений, которое часто упускается существующими коммерческими API из-за отсутствия явных признаков риска.