यह पेपर adversarial pragmatics को एक नए बेंचमार्क और एनोटेशन प्रोटोकॉल के रूप में पेश करता है, जो निर्देश संघर्ष, एम्बेडेड कमांड्स और नीति अस्पष्टता जैसे जटिल भाषाई स्थितियों के तहत AI मॉडल व्यवहार का मूल्यांकन करने के लिए डिज़ाइन किया गया है। मौजूदा सुरक्षा मूल्यांकन अक्सर इन सूक्ष्मताओं को पास/फेल लेबल्स में अत्यधिक सरलीकृत कर देते हैं, जिससे क्षमता सीमाओं या अस्थिर मूल्यांककर्ता निर्णयों जैसे विफलताओं के मूल कारण छिप जाते हैं।
- फ्रेमवर्क एजेंटिक कार्यों में प्राकृतिक भाषा व्यवहार की अस्पष्टता का विश्लेषण करने के लिए भाषाई रूप से नियंत्रित टैक्सोनॉमी प्रदान करता है।
- इसमें वैलिडेटर-प्रबद्ध मेटाडेटा के साथ 18-आइटम सीड बेंचमार्क और 54-पंक्ति स्थानीय सीड पायलट शामिल हैं।
- विशेषज्ञ-मूल्यांकन प्रोटोकॉल कार्य सफलता, नीति अनुपालन, सुरक्षा जोखिम, अस्वीकृति परिणाम और मूल्यांककर्ता आत्मविश्वास के बीच भेद करता है।
- विधि सुरक्षा मूल्यांकनों और LLM जजों को मान्य करने के लिए न्यायाधीश वैधता, निदानात्मक अस्पष्टता और टैक्सोनॉमी ड्रिफ्ट के लिए मापदंड प्रदान करती है।