Um estudo testando Llama-3.1-8B, Qwen2.5-7B e Mistral-7B em domínios de clima, vacinas e evolução encontra que os modelos não recuam sicológicamente do consenso científico quando os usuários sinalizam dúvida. Em vez disso, os modelos exibem três políticas distintas: afirmação reativa onde o consenso aumenta (Llama), hedging superficial com tom suavizado (Qwen) e não-resposta (Mistral).
- A avaliação comportamental confirma que a mudança reativa é uma mudança de postura impulsionada pela maior afirmação do consenso em vez de equilíbrio falso.
- Sondas lineares localizam a divergência nas camadas médias, mostrando separação perfeita em Llama e Qwen versus 72% em Mistral.
- A robustez observada não se transfere entre domínios e pode reverter em discussões sobre vacinas sob pressão cética.
Os autores argumentam que a avaliação comportamental por si só não pode distinguir entre modelos que resistem ao ceticismo devido à compreensão versus aqueles que parecem robustos porque falham em perceber o sinal.