В данной статье Adversarial Pragmatics представлена как новый бенчмарк и протокол аннотации, предназначенный для оценки поведения ИИ-моделей в сложных языковых условиях, таких как конфликт инструкций, встроенные команды и неоднозначность политик. Существующие оценки безопасности часто упрощают эти нюансы до меток «пройден/не пройден», скрывая коренные причины сбоев, такие как ограничения возможностей или нестабильность суждений оценщиков.
- Фреймворк предоставляет лингвистически контролируемый таксономический анализ неоднозначного поведения естественного языка в агентных задачах.
- Он включает 18-элементный начальный бенчмарк с метаданными, контролируемыми валидатором, и локальный пилотный набор из 54 строк.
- Протокол экспертной оценки различает успешность задачи, соблюдение политики, риск безопасности, результат отказа и уверенность оценщика.
- Методология предлагает метрики для проверки валидности судьи, диагностической неоднозначности и дрейфа таксономии для подтверждения корректности оценок безопасности и LLM-судей.