적대적 화용론이 지시 충돌 및 내장 명령을 위한 벤치마크 도입

본 논문은 지시 충돌, 내장 명령, 정책 모호성과 같은 복잡한 언어학적 조건 하에서 AI 모델의 동작을 평가하도록 설계된 새로운 벤치마크 및 주석 프로토콜로서 적대적 화용론을 소개합니다. 기존 안전 평가는 이러한 미묘한 차이를 합격/불합격 레이블로 과도하게 단순화하여, 능력 한계나 불안정한 평가자 판단과 같은 실패의 근본 원인을 흐릿하게 만듭니다.

이 프레임워크는 에이전트 작업에서 모호한 자연어 동작을 분석하기 위한 언어학적으로 통제된 분류 체계를 제공합니다.
검증자가 강제하는 메타데이터가 포함된 18개 항목 시드 벤치마크와 54행 로컬 시드 파일럿을 포함합니다.
전문가 평가 프로토콜은 작업 성공, 정책 준수, 안전 위험, 거부 결과 및 평가자 신뢰도를 구분합니다.
이 방법론은 안전 평가 및 LLM 판정자의 타당성을 검증하기 위한 판정자 타당성, 진단적 모호성 및 분류 체계 드리프트에 대한 지표를 제공합니다.