LLMs के लिए ऑनलाइन सुरक्षा मॉनिटरिंग

लेख में डिप्लॉयमेंट के दौरान बड़े भाषा मॉडलों में असुरक्षित आउटपुट की स्थिरता को संबोधित किया गया है और एक रियल-टाइम मॉनिटरिंग समाधान प्रस्तावित किया गया है। यह एक सरल मॉनिटर पेश करता है जो बाहरी मॉडल से वेरिफायर सिग्नल को थ्रेशोल्डिंग द्वारा अलार्म निर्णयों में परिवर्तित करता है, जिसमें थ्रेशोल्ड जोखिम नियंत्रण के माध्यम से कैलिब्रेटेड होते हैं।

विधि अलार्म उत्पन्न करने के लिए वेरिफायर सिग्नल पर थ्रेशोल्डिंग का उपयोग करती है।
थ्रेशोल्ड जोखिम नियंत्रण तकनीकों का उपयोग करके कैलिब्रेटेड होते हैं।
गणितीय तर्क और रेड टीमिंग डेटासेट पर प्रयोग किए गए थे।
सरल डिज़ाइन अनुक्रमिक परिकल्पना परीक्षण पर आधारित उन्नत मॉनिटर के साथ प्रतिस्पर्धी है।