Les LLM montrent des politiques distinctes sous pression sceptique plutôt qu'un retrait sycophantique

Une étude testant Llama-3.1-8B, Qwen2.5-7B et Mistral-7B sur les domaines du climat, des vaccins et de l'évolution constate que les modèles ne reculent pas de manière sycophantique face au consensus scientifique lorsque les utilisateurs expriment des doutes. Au lieu de cela, les modèles exhibent trois politiques distinctes : une assertion réactive où le consensus augmente (Llama), un hedging de surface avec un ton adouci (Qwen), et une non-réponse (Mistral).

L'évaluation comportementale confirme que le changement réactif est un changement d'attitude conduit par une affirmation accrue du consensus plutôt que par un faux équilibre.
Les sondes linéaires localisent la divergence dans les couches intermédiaires, montrant une séparation parfaite chez Llama et Qwen contre 72% chez Mistral.
La robustesse observée ne se transfère pas entre les domaines et peut s'inverser dans les discussions sur les vaccins sous pression sceptique.

Les auteurs soutiennent que l'évaluation comportementale seule ne peut pas distinguer les modèles qui résistent au scepticisme par compréhension de ceux qui semblent robustes parce qu'ils échouent à percevoir le signal.