Destilar para detectar vieses ocultos de LLM via destilação de cartucho

Pesquisadores introduzem o Distill to Detect (D2D), um método que expõe vieses preferenciais ocultos em grandes modelos de linguagem convertendo mudanças distribucionais em texto detectável. A técnica usa um adaptador de prefixo KV-cache, chamado cartucho, para amplificar a divergência entre um modelo suspeito e sua versão base.

O D2D destila a mudança entre um modelo e sua base em um cartucho que concentra as divergências dominantes.
O método amplifica vieses ocultos para que sejam detectáveis de forma confiável através de múltiplos tipos de viés.
Um framework teórico explica a eficácia do D2D através da projeção ponderada por Fisher das mudanças na distribuição de logits.

Ao transformar adaptadores de ajuste de prefixo em ferramentas de detecção, o D2D fornece um bloco de construção prático para auditoria de comportamentos ocultos em modelos de linguagem implantados.