본 논문은 지시 충돌, 내장 명령, 정책 모호성과 같은 복잡한 언어학적 조건 하에서 AI 모델의 동작을 평가하도록 설계된 새로운 벤치마크 및 주석 프로토콜로서 적대적 화용론을 소개합니다. 기존 안전 평가는 이러한 미묘한 차이를 합격/불합격 레이블로 과도하게 단순화하여, 능력 한계나 불안정한 평가자 판단과 같은 실패의 근본 원인을 흐릿하게 만듭니다.
- 이 프레임워크는 에이전트 작업에서 모호한 자연어 동작을 분석하기 위한 언어학적으로 통제된 분류 체계를 제공합니다.
- 검증자가 강제하는 메타데이터가 포함된 18개 항목 시드 벤치마크와 54행 로컬 시드 파일럿을 포함합니다.
- 전문가 평가 프로토콜은 작업 성공, 정책 준수, 안전 위험, 거부 결과 및 평가자 신뢰도를 구분합니다.
- 이 방법론은 안전 평가 및 LLM 판정자의 타당성을 검증하기 위한 판정자 타당성, 진단적 모호성 및 분류 체계 드리프트에 대한 지표를 제공합니다.