बहुभाषी AI सुरक्षा के लिए HaloGuard 1.0 ने खुले-वजन संवैधानिक वर्गीकारक को जारी किया

शोधकर्ताओं ने HaloGuard 1.0 प्रस्तुत किया, जो बहुभाषा इनपुट की सुरक्षा को बेहतर बनाने के लिए डिज़ाइन किए गए संवैधानिक-वर्गीकारक पैराडाइम का एक खुले-वजन कार्यान्वयन है। मॉडल सिंथेटिक डेटा उत्पादन को चलाने और बहुभाषी इनपुट को संभालने के लिए 46 नीतियों और 2,940 उपश्रेणियों वाले प्राकृतिक-भाषा संविधान का उपयोग करता है।

HaloGuard 1.0-0.8B सात प्रॉम्प्ट-सुरक्षा बेंचमार्क्स पर 90.7 की औसत F1 स्कोर प्राप्त करता है, 4.3 के फ़ॉल्स-पॉजिटिव दर और 9.5 के फ़ॉल्स-नेगेटिव दर को बनाए रखते हुए 27B पैरामीटर तक के बेलाइन से बेहतर प्रदर्शन करता है।
बड़ा HaloGuard 1.0-4B वेरिएंट 3.5 के फ़ॉल्स-पॉजिटिव दर के साथ 92.1 की औसत F1 स्कोर प्राप्त करता है, रिकॉल पर प्राथमिकता देने के बजाय सटीकता को प्राथमिकता देता है।
प्रशिक्षण कॉर्पस फ़ॉल्स पॉजिटिव को कम करने के लिए विषय और शब्दावली को स्थिर रखते हुए इरादे को उलटने वाले व्यापक एक-से-एक युग्मित काउंटरफैक्चुअल्स का उपयोग करता है।
बहुभाषी मटीरियलाइजेशन भाषा को एक आक्रामक संकेत के बजाय 46 भाषाओं में एक सतह रूप के रूप में मानता है।

रिलीज़ एक अत्यधिक कुशल, ओपन-सोर्स गार्ड मॉडल प्रदान करती है जो स्टेट-ऑफ़-द-आर्ट बहुभाषी सुरक्षा प्रदर्शन के लिए आवश्यक पैरामीटर गिनती को काफी कम कर देता है।