Pragmatika Adversarial memperkenalkan benchmark untuk konflik instruksi dan perintah tertanam

Makalah ini memperkenalkan pragmatika adversarial sebagai benchmark dan protokol anotasi baru yang dirancang untuk mengevaluasi perilaku model AI di bawah kondisi linguistik kompleks seperti konflik instruksi, perintah tertanam, dan ambiguitas kebijakan. Evaluasi keamanan yang ada sering menyederhanakan nuansa ini secara berlebihan menjadi label lulus/gagal, sehingga mengaburkan akar penyebab kegagalan seperti batas kemampuan atau penilaian evaluator yang tidak stabil.

Kerangka kerja ini menyediakan taksonomi yang dikontrol secara linguistik untuk menganalisis perilaku bahasa alami yang ambigu dalam tugas agentic.
Ini mencakup benchmark benih 18-item dengan metadata yang dipaksakan oleh validator dan pilot benih lokal 54-baris.
Protokol evaluasi ahli membedakan antara keberhasilan tugas, kepatuhan kebijakan, risiko keamanan, hasil penolakan, dan kepercayaan evaluator.
Metodologi ini menawarkan metrik untuk validitas hakim, ambiguitas diagnostik, dan pergeseran taksonomi untuk memvalidasi evaluasi keamanan dan hakim LLM.