Distil untuk Mendeteksi bias LLM tersembunyi di permukaan melalui distil kartrid

Peneliti memperkenalkan Distill to Detect (D2D), sebuah metode yang mengekspos bias preferensial tersembunyi dalam model bahasa besar dengan mengubah pergeseran distribusi menjadi teks yang dapat dideteksi. Teknik ini menggunakan adaptor prefix cache-KV, yang disebut kartrid, untuk memperkuat divergensi antara model yang dicurigai dan versi dasarnya.

D2D mendistil pergeseran antara model dan dasarnya ke dalam kartrid yang memusatkan divergensi dominan.
Metode ini memperkuat bias tersembunyi sehingga dapat dideteksi secara andal di berbagai jenis bias.
Kerangka teoretis menjelaskan efektivitas D2D melalui proyeksi tertimbang Fisher dari pergeseran distribusi logit.

Dengan mengubah adaptor prefix-tuning menjadi alat deteksi, D2D menyediakan blok bangunan praktis untuk audit perilaku tersembunyi dalam model bahasa yang telah diterapkan.