MiShield mendeteksi toksisitas implisit multi-gambar dengan menganalisis entitas berkorelasi

Para peneliti mengatasi tantangan toksisitas implisit multi-gambar (MIIT), di mana semantik berbahaya muncul hanya ketika gambar-gambar yang tidak berbahaya ditafsirkan secara bersama-sama. Mereka memperkenalkan MIIT-dataset, dataset keamanan berbasis gambar saja yang baru yang mencakup tujuh kategori risiko, dan melatih MiShield untuk mengidentifikasi bahaya ini.

Tim membangun MIIT-dataset menggunakan pipeline generasi otomatis untuk mencakup tujuh kategori risiko perwakilan.
MiShield dilatih dengan pengawasan penalaran yang secara bertahap disuling untuk menghasilkan analisis eksplisit dari entitas berkorelasi yang menyebabkan bahaya.
Eksperimen menunjukkan bahwa model MiShield-8B mengungguli layanan moderasi perwakilan dan model berskala lebih besar.

Karya ini memberikan solusi praktis untuk mengidentifikasi toksisitas implisit dalam format multi-gambar, yang sering terlewat oleh API komersial yang ada karena kurangnya petunjuk risiko eksplisit.