शोधकर्ताओं ने Distill to Detect (D2D) पेश किया, एक विधि जो वितरण परिवर्तनों को पहचानने योग्य पाठ में बदलकर बड़े भाषा मॉडलों में छिपी हुई प्राथमिक पूर्वाग्रहों को उजागर करती है। तकनीक एक KV-cache प्रीफ़िक्स एडाप्टर, जिसे कार्ट्रिज कहा जाता है, का उपयोग करता है, जो एक संदिग्ध मॉडल और इसके बेस वर्जन के बीच विचलन को बढ़ाता है।

  • D2D एक मॉडल और उसके बेस के बीच के शिफ्ट को एक कार्ट्रिज में डिस्टिल करता है जो प्रमुख विचलनों को केंद्रित करता है।
  • विधि छिपे हुए पूर्वाग्रहों को बढ़ाती है ताकि वे कई प्रकार के पूर्वाग्रहों के लिए विश्वसनीय रूप से पहचानने योग्य हों।
  • एक सैद्धांतिक ढांचा लॉगिट वितरण शिफ्ट्स के फिशर-वजन वाले प्रक्षेपण के माध्यम से D2D की प्रभावकारिता को समझाता है।

प्रीफ़िक्स-ट्यूनिंग एडाप्टर्स को डिटेक्शन टूल्स में बदलकर, D2D तैनात भाषा मॉडलों में छिपे हुए व्यवहारों की ऑडिटिंग के लिए एक व्यावहारिक निर्माण ब्लॉक प्रदान करता है।