La pragmatique adversaire introduit un benchmark pour les conflits d'instruction et les commandes intégrées

Cet article présente la pragmatique adversaire comme un nouveau benchmark et protocole d'annotation conçu pour évaluer le comportement des modèles d'IA dans des conditions linguistiques complexes telles que les conflits d'instruction, les commandes intégrées et l'ambiguïté des politiques. Les évaluations de sécurité existantes simplifient souvent excessivement ces nuances en étiquettes de réussite/échec, obscurcissant les causes racines des échecs telles que les limites de capacité ou les jugements d'évaluateurs instables.

Le framework fournit une taxonomie contrôlée linguistiquement pour analyser le comportement ambigu du langage naturel dans les tâches agentic.
Il comprend un benchmark semence de 18 éléments avec des métadonnées imposées par un validateur et un pilote local semence de 54 lignes.
Un protocole d'évaluation par des experts distingue la réussite de la tâche, la conformité à la politique, le risque de sécurité, le résultat de refus et la confiance de l'évaluateur.
La méthodologie offre des métriques pour la validité du juge, l'ambiguïté diagnostique et la dérive de taxonomie afin de valider les évaluations de sécurité et les juges LLM.