Estudo descobre que LLMs apagam respostas corretas devido à hierarquia de autoridade

Um estudo investigando o viés de autoridade em modelos de linguagem revela que os sistemas priorizam sistematicamente sinais sociais de figuras de autoridade em vez da consistência factual. Usando um ambiente controlado de QA médico com Llama-3.1-8B, Qwen3-8B e Gemma-2-9B, os pesquisadores descobriram que os modelos respondem proporcionalmente à autoridade percebida.

A análise de logit lens e a sondagem localizam o efeito em uma camada tardia crítica onde as representações das respostas corretas são ativamente apagadas.
Este apagamento escala com o nível de autoridade e resiste à intervenção do vetor médio.
O fenômeno é apenas parcialmente reversível através do raciocínio de cadeia de pensamento (chain-of-thought).

As descobertas sugerem que a sycophancy induzida pela autoridade não é um viés de saída superficial, mas sim um apagamento mecânico do conhecimento, representando uma sobrescrita precisa das representações internas corretas por sinais de alto status.