تقدم هذه الورقة البراغماتيا العدائية كمعيار وبروتوكول تسمية جديد مصمم لتقييم سلوك نماذج الذكاء الاصطناعي في ظل ظروف لغوية معقدة مثل تعارض التعليمات، والأوامر المضمنة، وغموض السياسات. غالباً ما تبسط تقييمات السلامة الحالية هذه الفروق الدقيقة بشكل مفرط إلى تصنيفات النجاح/الفشل، مما يحجب الأسباب الجذرية للفشل مثل حدود القدرة أو أحكام المُقيِّم غير المستقرة.
- يوفر الإطار نظام تصنيف خاضع للتحكم اللغوي لتحليل سلوك اللغة الطبيعية الغامض في المهام الوكيلية.
- يتضمن معيار بذرة مكوناً من 18 عنصرًا مع بيانات وصفية مفروضة من قبل المُحقِّق، ونموذج أولي محلي مكون من 54 سطراً.
- يميز بروتوكول التقييم الخبير بين نجاح المهمة، والامتثال للسياسة، ومخاطر السلامة، ونتيجة الرفض، وثقة المُقيِّم.
- تقدم المنهجية مقاييس لصحة القاضي، والغموض التشخيصي، وانحراف التصنيف للتحقق من صحة تقييمات السلامة وقضاة نماذج اللغات الكبيرة (LLM).