연구자들은 모델 파라미터에서 지식이 실제로 삭제되었는지 평가하는 간극을 해결하기 위해 지표 수준의 파라미터 국소화를 특징으로 하는 최초의 비학습 테스트베드인 LACUNA를 소개했습니다. 이 테스트베드는 마스킹된 지속적 사전 학습을 통해 1B 및 7B OLMo 기반 모델의 미리 정의된 파라미터에 합성 개인의 PII를 주입합니다.

  • LACUNA는 비학습이 지식 저장에 관여하는 가중치를 대상으로 하는지 직접 평가할 수 있게 합니다.
  • 벤치마킹 결과, 현재 SOTA 방법론은 출력 수준 성능이 강력함에도 불구하고 매우 부정확한 것으로 드러났습니다.
  • 기존 방법론은 출력 수준에서 효과적으로 보이는 경우에도 재출현 공격에 여전히 취약합니다.
  • 성공적인 국소화를 통해 단순한 그래디언트 기반 비학습으로 강력한 삭제와 견고성을 달성할 수 있습니다.

저자들은 행동 평가를 보완하고 견고하며 국소화 기반 비학습의 추가 발전을 촉진하기 위해 LACUNA를 공개했습니다.