Para peneliti mengatasi tantangan toksisitas implisit multi-gambar (MIIT), di mana semantik berbahaya muncul hanya ketika gambar-gambar yang tidak berbahaya ditafsirkan secara bersama-sama. Mereka memperkenalkan MIIT-dataset, dataset keamanan berbasis gambar saja yang baru yang mencakup tujuh kategori risiko, dan melatih MiShield untuk mengidentifikasi bahaya ini.

  • Tim membangun MIIT-dataset menggunakan pipeline generasi otomatis untuk mencakup tujuh kategori risiko perwakilan.
  • MiShield dilatih dengan pengawasan penalaran yang secara bertahap disuling untuk menghasilkan analisis eksplisit dari entitas berkorelasi yang menyebabkan bahaya.
  • Eksperimen menunjukkan bahwa model MiShield-8B mengungguli layanan moderasi perwakilan dan model berskala lebih besar.

Karya ini memberikan solusi praktis untuk mengidentifikasi toksisitas implisit dalam format multi-gambar, yang sering terlewat oleh API komersial yang ada karena kurangnya petunjuk risiko eksplisit.