카트리지 증류로 표면의 숨겨진 LLM 편향 감지

연구자들은 Distill to Detect (D2D)를 도입했습니다. 이는 분포 변화를 탐지 가능한 텍스트로 변환하여 대규모 언어 모델 내의 숨겨진 선호 편향을 드러내는 방법입니다. 이 기술은 카트리지라고 불리는 KV-캐시 접두사 어댑터를 사용하여 의심되는 모델과 기본 버전 간의 차이를 증폭합니다.

D2D는 모델과 기본 모델 간의 변화를 카트리지로 증류하여 지배적인 차이를 집중합니다.
이 방법은 숨겨진 편향을 증폭하여 여러 편향 유형에 걸쳐 신뢰성 있게 감지 가능하게 합니다.
이론적 프레임워크는 로짓 분포 변화의 피셔 가중 투영을 통해 D2D의 효용성을 설명합니다.

접두사 튜닝 어댑터를 탐지 도구로 전환함으로써 D2D는 배포된 언어 모델 내의 숨겨진 동작을 감사하기 위한 실용적인 구성 요소를 제공합니다.