MiShield обнаруживает скрытую токсичность в нескольких изображениях, анализируя коррелированные сущности

Исследователи решают задачу многоизображенийной скрытой токсичности (MIIT), при которой вредоносная семантика проявляется только при совместном анализе безобидных изображений. Они представляют MIIT-dataset, новый набор данных для оценки безопасности, содержащий только изображения и охватывающий семь категорий рисков, и обучают модель MiShield выявлять эти угрозы.

Команда создала MIIT-dataset с помощью автоматического конвейера генерации, чтобы охватить семь репрезентативных категорий рисков.
MiShield обучается с использованием прогрессивно дистиллированного обучения рассуждениям для формирования явного анализа коррелированных сущностей, вызывающих угрозы.
Эксперименты показывают, что модели MiShield-8B превосходят репрезентативные сервисы модерации и модели большего масштаба.

Эта работа предлагает практическое решение для выявления скрытой токсичности в форматах нескольких изображений, которое часто упускается существующими коммерческими API из-за отсутствия явных признаков риска.