إصدار HaloGuard 1.0 لمصنف دستوري بأوزان مفتوحة لسلامة الذكاء الاصطناعي متعدد اللغات

يقدم الباحثون HaloGuard 1.0، وهو تنفيذ بأوزان مفتوحة لنموذج المصنف الدستوري مصمم لتحسين سلامة المدخلات عبر لغات متعددة. يستخدم النموذج دستورًا باللغة الطبيعية يحتوي على 46 سياسة و2,940 فئة فرعية لتوليد البيانات الاصطناعية ومعالجة المدخلات متعددة اللغات.

يحقق HaloGuard 1.0-0.8B متوسط درجة F1 تبلغ 90.7 عبر سبعة معايير لسلامة المطالبات، متفوقًا على الخطوط الأساسية حتى 27 مليار معلمة مع الحفاظ على معدل إيجابي كاذب بنسبة 4.3 ومعدل سلبي كاذب بنسبة 9.5.
يصل الإصدار الأكبر HaloGuard 1.0-4B إلى متوسط درجة F1 تبلغ 92.1 بمعدل إيجابي كاذب يبلغ 3.5، مع إعطاء الأولوية للدقة على الاسترجاع.
يستخدم مجموعة التدريب مضادات واقعية مقترنة شاملة (واحد لواحد) تقلب النية مع الحفاظ على الموضوع والمفردات ثابتة لتقليل الإيجابيات الكاذبة.
يعامل التمثيل متعدد اللغات اللغة كشكل سطحي عبر 46 لغة بدلاً من إشارة عدائية.

يوفر هذا الإصدار نموذج حراسة مفتوح المصدر عالي الكفاءة يقلل بشكل كبير من عدد المعلمات المطلوبة لأداء سلامة متعدد اللغات متقدم.