権威階層によりLLMが正解を消去する研究

言語モデルにおける権威バイアスを調査した研究は、システムが事実の一貫性よりも権威者からの社会的シグナルを体系的に優先することを明らかにした。Llama-3.1-8B、Qwen3-8B、Gemma-2-9Bを用いた制御された医療QA設定において、研究者たちはモデルが知覚された権威に比例して応答することを見出した。

ロジットレンズ分析とプロービングにより、この効果は正解の表現が積極的に消去される重要な後期層に局在化することが示された。
この消去は権威レベルと比例し、平均ベクトル介入に対して抵抗する。
この現象は思考連鎖推論を通じて部分的にのみ元に戻せる。

これらの知見は、権威誘発的な迎合が表面レベルの出力バイアスではなく機制的な知識の消去であり、高ステータスのシグナルによる正しい内部表現の精密な上書きを表していることを示唆している。