В данной статье Adversarial Pragmatics представлена как новый бенчмарк и протокол аннотации, предназначенный для оценки поведения ИИ-моделей в сложных языковых условиях, таких как конфликт инструкций, встроенные команды и неоднозначность политик. Существующие оценки безопасности часто упрощают эти нюансы до меток «пройден/не пройден», скрывая коренные причины сбоев, такие как ограничения возможностей или нестабильность суждений оценщиков.

  • Фреймворк предоставляет лингвистически контролируемый таксономический анализ неоднозначного поведения естественного языка в агентных задачах.
  • Он включает 18-элементный начальный бенчмарк с метаданными, контролируемыми валидатором, и локальный пилотный набор из 54 строк.
  • Протокол экспертной оценки различает успешность задачи, соблюдение политики, риск безопасности, результат отказа и уверенность оценщика.
  • Методология предлагает метрики для проверки валидности судьи, диагностической неоднозначности и дрейфа таксономии для подтверждения корректности оценок безопасности и LLM-судей.