लेखकों ने OpenSafeIntent पेश किया है, एक बेंचमार्क जो इसका आकलन करने के लिए डिज़ाइन किया गया है कि क्या AI मॉडल नियंत्रित प्रॉम्प्ट सेट का उपयोग करके इरादे-कैलिब्रेटेड सुरक्षित पूर्णता प्रदान करते हैं, जिसमें अंतर्निहित कार्य को स्थिर रखते हुए इरादे में विविधता होती है। प्रत्येक डेटा बिंदु में उसी कार्य के हानिरहित, डुअल-यूज़ और दुर्भावनापूर्ण रूप शामिल होते हैं ताकि औसत प्रदर्शन के बजाय सुरक्षा कैलिब्रेशन का आकलन किया जा सके।
- बेंचमार्क दिखाता है कि प्रॉम्प्ट-स्तर की सुरक्षा मेट्रिक्स महत्वपूर्ण विफलताओं को छुपाते हैं, क्योंकि मॉडल अक्सर मिलाने वाले इरादा रूपों के बीच सुरक्षित रहने में विफल रहते हैं।
- डुअल-यूज़ व्यवहार पराफ्रेज के तहत नाजुक पाया गया है, और जोखिम भरे विषयों पर उच्च-स्तरीय उत्तर विश्वसनीय रूप से सुरक्षित नहीं हैं।
- अन्य विधियों की तुलना में, अस्पष्ट अनुरोधों को अधिक सुरक्षित कार्यों में पुनर्परिभाषित करने वाले उत्तर सुरक्षा सीमा पार करने की संभावना काफी कम होती है।
परिणाम सुझाव देते हैं कि सुरक्षित पूर्णता का आकलन स्वतंत्र प्रॉम्प्ट पर एकल सुरक्षा-उपयोगिता समझौते के बजाय नियंत्रित कार्य रूपों पर इरादा-कैलिब्रेटेड व्यवहार के रूप में किया जाना चाहिए।