LACUNA: Sebuah Testbed untuk Mengevaluasi Presisi Lokalisasi untuk Penghapusan Pengetahuan LLM

Para peneliti memperkenalkan LACUNA, testbed penghapusan pengetahuan pertama yang menampilkan lokalisasi tingkat parameter ground-truth untuk mengatasi kesenjangan dalam mengevaluasi apakah penghapusan pengetahuan benar-benar menghapus pengetahuan dari parameter model. Testbed ini menyuntikkan PII individu sintetis ke dalam parameter yang telah ditentukan sebelumnya pada model berbasis OLMo berukuran 1B dan 7B melalui pra-pelatihan berkelanjutan dengan masking.

LACUNA memungkinkan evaluasi langsung apakah penghapusan pengetahuan menargetkan bobot yang bertanggung jawab atas penyimpanan pengetahuan.
Benchmarking mengungkapkan bahwa metode SOTA saat ini sangat tidak presisi meskipun memiliki kinerja tingkat output yang kuat.
Metode yang ada tetap rentan terhadap serangan muncul kembali bahkan ketika tampak efektif pada tingkat output.
Lokalisasi yang berhasil memungkinkan penghapusan pengetahuan berbasis gradien sederhana untuk mencapai penghapusan yang kuat dan ketahanan.

Para penulis merilis LACUNA untuk melengkapi evaluasi perilaku dan mendorong kemajuan lebih lanjut dalam penghapusan pengetahuan yang robust dan berbasis lokalisasi.