يكشف مقياس OpenSafeIntent أن النماذج تفشل في معايرة السلامة عبر مجموعات أوامر الاستخدام المزدوج

يقدم المؤلفون OpenSafeIntent، وهو مقياس مصمم لتقييم ما إذا كانت نماذج الذكاء الاصطناعي تقدم إكمالاً آملاً مُعايراً حسب القصد باستخدام مجموعات أوامر مسيطر عليها تختلف في القصد مع بقاء المهمة الأساسية ثابتة. يتضمن كل نقطة بيانات متغيرات بريئة، واستخدام مزدوج، وخبيثة لنفس المهمة لتقييم معايرة السلامة بدلاً من الأداء المتوسط.

يكشف المقياس أن مقاييس السلامة على مستوى الأمر تخفي إخفاقات كبيرة، حيث غالباً ما تفشل النماذج في البقاء آمنة عبر متغيرات القصد المطابقة.
وُجد أن سلوك الاستخدام المزدوج هش أمام إعادة الصياغة، وأن الإجابات عالية المستوى حول المواضيع الخطرة ليست آمنة بشكل موثوق.
الاستجابات التي تعيد صياغة الطلبات الغامضة إلى مهام أكثر أماناً أقل بكثير احتمالاً لتجاوز حدود السلامة مقارنة بالطرق الأخرى.

تشير النتائج إلى أنه ينبغي تقييم الإكمال الآمن كسلوك مُعاير حسب القصد عبر متغيرات المهمة المسيطر عليها بدلاً من كونه مقايضة واحدة بين السلامة والفائدة عبر أوامر مستقلة.