LLM 비학습의 국소화 정밀도를 평가하기 위한 테스트베드 LACUNA

연구자들은 모델 파라미터에서 지식이 실제로 삭제되었는지 평가하는 간극을 해결하기 위해 지표 수준의 파라미터 국소화를 특징으로 하는 최초의 비학습 테스트베드인 LACUNA를 소개했습니다. 이 테스트베드는 마스킹된 지속적 사전 학습을 통해 1B 및 7B OLMo 기반 모델의 미리 정의된 파라미터에 합성 개인의 PII를 주입합니다.

LACUNA는 비학습이 지식 저장에 관여하는 가중치를 대상으로 하는지 직접 평가할 수 있게 합니다.
벤치마킹 결과, 현재 SOTA 방법론은 출력 수준 성능이 강력함에도 불구하고 매우 부정확한 것으로 드러났습니다.
기존 방법론은 출력 수준에서 효과적으로 보이는 경우에도 재출현 공격에 여전히 취약합니다.
성공적인 국소화를 통해 단순한 그래디언트 기반 비학습으로 강력한 삭제와 견고성을 달성할 수 있습니다.

저자들은 행동 평가를 보완하고 견고하며 국소화 기반 비학습의 추가 발전을 촉진하기 위해 LACUNA를 공개했습니다.