التقطير للكشف عن تحيزات LLM المخفية على السطح عبر تقطير الخراطيش

يقدم الباحثون طريقة Distill to Detect (D2D)، التي تكشف عن التحيزات التفضيلية المخفية في نماذج اللغة الكبيرة من خلال تحويل الانزياحات التوزيعية إلى نص يمكن اكتشافه. تستخدم التقنية محول بادئة ذاكرة التخزين المؤقت KV، يُطلق عليه الخراطيش، لتضخيم الانحراف بين نموذج مشتبه به وإصداره الأساسي.

يقوم D2D بتقطير الانزياح بين النموذج وإصداره الأساسي في خرطوشة تركز على الانحرافات المهيمنة.
تضخم الطريقة التحيزات المخفية بحيث يمكن اكتشافها بشكل موثوق عبر أنواع متعددة من التحيز.
يشرح إطار نظري فعالية D2D من خلال إسقاط توزيع اللوغيتات المرجح بوزن فيشر.

من خلال تحويل محولات الضبط بالبادئة إلى أدوات كشف، يوفر D2D مكونًا عمليًا لمراجعة السلوكيات المخفية في نماذج اللغة المُنتشرة.