يتناول الباحثون تحدي السمية الضمنية متعددة الصور (MIIT)، حيث تظهر دلالات ضارة فقط عند تفسير الصور البريئة بشكل مشترك. يقدمون MIIT-dataset، وهو مجموعة بيانات جديدة للسلامة تعتمد على الصور فقط وتغطي سبع فئات من المخاطر، ويدربون MiShield لتحديد هذه الأخطار.

  • يبني الفريق MIIT-dataset باستخدام خط أنابيب توليد تلقائي لتغطية سبع فئات مخاطر ممثلة.
  • يتم تدريب MiShield باستخدام إشراف استدلال مُستخلص تدريجياً لإنتاج تحليلات صريحة للكيانات المترابطة المسببة للأخطار.
  • تُظهر التجارب أن نماذج MiShield-8B تتفوق على خدمات المراقبة التمثيلية والنماذج ذات الحجم الأكبر.

تقدم هذه العمل حلاً عملياً لتحديد السمية الضمنية في تنسيقات الصور المتعددة، والتي غالباً ما تفوتها واجهات برمجة التطبيقات التجارية الحالية بسبب نقص المؤشرات الخطرة الصريحة.