مراقبة السلامة عبر الإنترنت لنماذج اللغات الكبيرة

تناول المقال استمرار المخرجات غير الآمنة في نماذج اللغات الكبيرة أثناء النشر واقترح حلاً للمراقبة في الوقت الفعلي. يقدم أداة مراقبة بسيطة تحول إشارات المُحقّق من نموذج خارجي إلى قرارات إنذار عن طريق العتبة، مع معايرة العتبات عبر التحكم في المخاطر.

تستخدم الطريقة العتبة على إشارات المُحقّق لتوليد الإنذارات.
تُعاير العتبات باستخدام تقنيات التحكم في المخاطر.
أُجريت تجارب على مجموعات بيانات الاستدلال الرياضي واختبار الاختراق (red teaming).
التصميم البسيط يتنافس مع أدوات المراقبة المتقدمة القائمة على اختبار الفرضيات التسلسلي.