Este artículo introduce la pragmática adversarial como un nuevo benchmark y protocolo de anotación diseñado para evaluar el comportamiento de modelos de IA bajo condiciones lingüísticas complejas, como conflicto de instrucciones, comandos incrustados y ambigüedad de políticas. Las evaluaciones de seguridad existentes a menudo simplifican en exceso estos matices en etiquetas de aprobado/reprobado, oscureciendo las causas raíz de los fallos, como límites de capacidad o juicios inestables de los evaluadores.
- El marco proporciona una taxonomía controlada lingüísticamente para analizar el comportamiento ambiguo del lenguaje natural en tareas agentivas.
- Incluye un benchmark semilla de 18 elementos con metadatos aplicados por validador y una prueba piloto local de 54 filas.
- Un protocolo de evaluación por expertos distingue entre éxito de la tarea, cumplimiento de la política, riesgo de seguridad, resultado de rechazo y confianza del evaluador.
- La metodología ofrece métricas para la validez del juez, ambigüedad diagnóstica y deriva de la taxonomía para validar las evaluaciones de seguridad y los jueces LLM.