Adversarial Pragmatics apresenta benchmark para conflito de instruções e comandos embutidos

Este artigo introduz a pragmática adversarial como um novo benchmark e protocolo de anotação projetado para avaliar o comportamento de modelos de IA sob condições linguísticas complexas, como conflito de instruções, comandos embutidos e ambiguidade de políticas. As avaliações de segurança existentes frequentemente simplificam excessivamente esses nuances em rótulos de aprovação/reprovação, obscurecendo as causas raízes das falhas, como limites de capacidade ou julgamentos instáveis dos avaliadores.

O framework fornece uma taxonomia linguisticamente controlada para analisar o comportamento ambíguo da linguagem natural em tarefas agentivas.
Inclui um benchmark semente de 18 itens com metadados aplicados por validador e um piloto local de 54 linhas.
Um protocolo de avaliação por especialistas distingue entre sucesso da tarefa, conformidade da política, risco de segurança, resultado de recusa e confiança do avaliador.
A metodologia oferece métricas para validade do juiz, ambiguidade diagnóstica e deriva da taxonomia para validar avaliações de segurança e juízes LLM.