研究者らは、モデルパラメータからの知識の真に消去されたかどうかを評価する際のギャップに対処するため、グランドトゥルースのパラメータレベルの局所化を特徴とする初のアンラーニングテストベッドであるLACUNAを紹介した。このテストベッドは、マスク付き継続的プリトレーニングを通じて、1Bおよび7BのOLMoベースモデルの定義済みパラメータに合成個人のPIIを注入する。
- LACUNAにより、アンラーニングが知識保存に関与する重みを対象としているかどうかを直接評価できる。
- ベンチマークの結果、現在のSOTA手法は出力レベルでのパフォーマンスが強くても、極めて不正確であることが明らかになった。
- 既存の手法は、出力レベルで効果的に見える場合でも、再出現攻撃に対して依然として脆弱である。
- 局所化に成功すれば、単純な勾配ベースのアンラーニングにより強力な消去と堅牢性を実現できる。
著者らは、行動評価を補完し、堅牢で局所化に基づくアンラーニングのさらなる進展を促すためにLACUNAを公開した。