Distiller pour détecter les biais LLM cachés en surface via la distillation par cartouche

Les chercheurs présentent Distill to Detect (D2D), une méthode qui expose les biais préférentiels cachés dans les grands modèles de langage en convertissant les changements distributionnels en texte détectable. La technique utilise un adaptateur de préfixe de cache KV, appelé cartouche, pour amplifier la divergence entre un modèle suspecté et sa version de base.

D2D distille le changement entre un modèle et sa version de base dans une cartouche qui concentre les divergences dominantes.
La méthode amplifie les biais cachés afin qu'ils soient détectables de manière fiable sur plusieurs types de biais.
Un cadre théorique explique l'efficacité de D2D par la projection pondérée par Fisher des changements de distribution des logits.

En transformant les adaptateurs de préfixe-tuning en outils de détection, D2D fournit un bloc de construction pratique pour l'audit des comportements cachés dans les modèles de langage déployés.