Adversarial Pragmatics представляет бенчмарк для конфликта инструкций и встроенных команд

В данной статье Adversarial Pragmatics представлена как новый бенчмарк и протокол аннотации, предназначенный для оценки поведения ИИ-моделей в сложных языковых условиях, таких как конфликт инструкций, встроенные команды и неоднозначность политик. Существующие оценки безопасности часто упрощают эти нюансы до меток «пройден/не пройден», скрывая коренные причины сбоев, такие как ограничения возможностей или нестабильность суждений оценщиков.

Фреймворк предоставляет лингвистически контролируемый таксономический анализ неоднозначного поведения естественного языка в агентных задачах.
Он включает 18-элементный начальный бенчмарк с метаданными, контролируемыми валидатором, и локальный пилотный набор из 54 строк.
Протокол экспертной оценки различает успешность задачи, соблюдение политики, риск безопасности, результат отказа и уверенность оценщика.
Методология предлагает метрики для проверки валидности судьи, диагностической неоднозначности и дрейфа таксономии для подтверждения корректности оценок безопасности и LLM-судей.