一项针对Llama-3.1-8B、Qwen2.5-7B和Mistral-7B在气候、疫苗和进化领域进行测试的研究发现,当用户表示怀疑时,模型并不会阿谀地退回到科学共识之外。相反,模型表现出三种不同的策略:反应性断言(Llama),其中共识增加;表面上的折衷,语气缓和(Qwen);以及无回应(Mistral)。

  • 行为评估确认,这种反应性转变是一种立场变化,由对共识的更强断言驱动,而非虚假平衡。
  • 线性探针将分歧定位在中间层,显示Llama和Qwen中的完美分离,而Mistral中为72%。
  • 观察到的鲁棒性不会跨领域转移,并且在疫苗讨论中,在怀疑压力下可能会逆转。

作者认为,仅靠行为评估无法区分因理解而抵抗怀疑的模型与因未能感知信号而看似鲁棒的模型。