本論文は、敵対的語用論を、指示の競合、埋め込みコマンド、ポリシーの曖昧さといった複雑な言語的条件の下でのAIモデルの挙動を評価するために設計された新しいベンチマークおよび注釈プロトコルとして導入する。既存の安全評価は、これらの微妙な違いを合格/不合格のラベルに過度に単純化し、能力の限界や不安定な評価者の判断といった失敗の根本原因を曖昧にしている。
- このフレームワークは、エージェントタスクにおける曖昧な自然言語の挙動を分析するための言語学的に制御された分類体系を提供する。
- 検証者によるメタデータ強制適用された18項目のシードベンチマークと、54行のローカルシードパイロットを含む。
- 専門家による評価プロトコルは、タスクの成功、ポリシー準拠、安全リスク、拒否結果、および評価者の信頼度を区別する。
- この手法は、安全評価およびLLM判定者の妥当性を検証するための、判定者の妥当性、診断的曖昧さ、分類体系のドリフトに関する指標を提供する。