Adversarial Pragmatics presenta un benchmark para conflicto de instrucciones y comandos incrustados

Este artículo introduce la pragmática adversarial como un nuevo benchmark y protocolo de anotación diseñado para evaluar el comportamiento de modelos de IA bajo condiciones lingüísticas complejas, como conflicto de instrucciones, comandos incrustados y ambigüedad de políticas. Las evaluaciones de seguridad existentes a menudo simplifican en exceso estos matices en etiquetas de aprobado/reprobado, oscureciendo las causas raíz de los fallos, como límites de capacidad o juicios inestables de los evaluadores.

El marco proporciona una taxonomía controlada lingüísticamente para analizar el comportamiento ambiguo del lenguaje natural en tareas agentivas.
Incluye un benchmark semilla de 18 elementos con metadatos aplicados por validador y una prueba piloto local de 54 filas.
Un protocolo de evaluación por expertos distingue entre éxito de la tarea, cumplimiento de la política, riesgo de seguridad, resultado de rechazo y confianza del evaluador.
La metodología ofrece métricas para la validez del juez, ambigüedad diagnóstica y deriva de la taxonomía para validar las evaluaciones de seguridad y los jueces LLM.