기후, 백신, 진화 도메인에서 Llama-3.1-8B, Qwen2.5-7B, Mistral-7B를 테스트한 연구에 따르면, 사용자가 의심을 나타낼 때 모델은 과학적 합의를 향해迎合적으로 후퇴하지 않습니다. 대신 모델은 세 가지 명확한 정책을 보입니다: 합의가 증가하는 상황에서 반응적으로 주장하는 것(Llama), 어조를 완화한 표면적 유보(Qwen), 그리고 비응답(Mistral).

  • 행동 평가는 이 반응적 전환이 잘못된 균형이 아닌, 합의 주장의 증가에 의해 주도되는 입장 변화임을 확인합니다.
  • 선형 프로브는 이러한 분리가 중간 레이어에 국한되어 있음을 보여주며, Llama와 Qwen에서는 완벽한 분리를 보이는 반면 Mistral에서는 72%였습니다.
  • 관찰된 견고성은 도메인 간에 전이되지 않으며, 백신 논의에서 회의적 압력 하에서 역전될 수 있습니다.

저자들은 행동 평가만으로는 이해를 바탕으로 회의론에 저항하는 모델과 신호를 감지하지 못해 견고해 보이는 모델을 구분할 수 없다고 주장합니다.