懐疑的な圧力下でLLMは迎合的撤退ではなく明確なポリシーを示す

気候、ワクチン、進化のドメインにおいてLlama-3.1-8B、Qwen2.5-7B、Mistral-7Bをテストした研究では、ユーザーが疑念を示してもモデルは科学的コンセンサスから迎合的に撤退しないことがわかった。その代わりに、モデルは3つの明確なポリシーを示す：コンセンサスが増加する中でリアクティブに主張する（Llama）、トーンを和らげた表面レベルの留保（Qwen）、そして非応答（Mistral）。

行動評価により、リアクティブなシフトが誤った均衡ではなく、コンセンサス主張の増加によって駆動されるスタンスの変化であることが確認された。
リニアプローブは、この分岐が中間層に局在化していることを示し、LlamaとQwenでは完全な分離を示すのに対し、Mistralでは72%であった。
観察された堅牢性はドメイン間で転移せず、ワクチンの議論において懐疑的な圧力下で逆転する可能性がある。

著者らは、行動評価だけでは、理解に基づいて懐疑論に抵抗するモデルと、シグナルを感知できないために堅牢に見えるモデルを区別できないと主張している。