Distilar para detectar sesgos ocultos de LLM mediante distilación de cartucho

Los investigadores presentan Distill to Detect (D2D), un método que expone sesgos preferenciales ocultos en modelos de lenguaje grandes convirtiendo cambios distribucionales en texto detectable. La técnica utiliza un adaptador de prefijo KV-cache, llamado cartucho, para amplificar la divergencia entre un modelo sospechoso y su versión base.

D2D destila el cambio entre un modelo y su base en un cartucho que concentra las divergencias dominantes.
El método amplifica los sesgos ocultos para que sean detectables de manera confiable a través de múltiples tipos de sesgo.
Un marco teórico explica la eficacia de D2D a través de la proyección ponderada por Fisher de cambios en la distribución de logits.

Al convertir adaptadores de ajuste de prefijo en herramientas de detección, D2D proporciona un bloque de construcción práctico para auditar comportamientos ocultos en modelos de lenguaje desplegados.