Para peneliti mengatasi tantangan toksisitas implisit multi-gambar (MIIT), di mana semantik berbahaya muncul hanya ketika gambar-gambar yang tidak berbahaya ditafsirkan secara bersama-sama. Mereka memperkenalkan MIIT-dataset, dataset keamanan berbasis gambar saja yang baru yang mencakup tujuh kategori risiko, dan melatih MiShield untuk mengidentifikasi bahaya ini.
- Tim membangun MIIT-dataset menggunakan pipeline generasi otomatis untuk mencakup tujuh kategori risiko perwakilan.
- MiShield dilatih dengan pengawasan penalaran yang secara bertahap disuling untuk menghasilkan analisis eksplisit dari entitas berkorelasi yang menyebabkan bahaya.
- Eksperimen menunjukkan bahwa model MiShield-8B mengungguli layanan moderasi perwakilan dan model berskala lebih besar.
Karya ini memberikan solusi praktis untuk mengidentifikasi toksisitas implisit dalam format multi-gambar, yang sering terlewat oleh API komersial yang ada karena kurangnya petunjuk risiko eksplisit.