Un estudio que prueba Llama-3.1-8B, Qwen2.5-7B y Mistral-7B en dominios de clima, vacunas y evolución encuentra que los modelos no se retiran sicológicamente del consenso científico cuando los usuarios señalan duda. En cambio, los modelos exhiben tres políticas distintas: afirmación reactiva donde el consenso aumenta (Llama), hedging superficial con tono suavizado (Qwen) y no respuesta (Mistral).
- La evaluación conductual confirma que el cambio reactivo es un cambio de postura impulsado por la mayor afirmación del consenso en lugar de un falso equilibrio.
- Las sondas lineales localizan la divergencia en capas medias, mostrando separación perfecta en Llama y Qwen versus 72% en Mistral.
- La robustez observada no se transfiere entre dominios y puede revertirse en discusiones sobre vacunas bajo presión escéptica.
Los autores argumentan que la evaluación conductual por sí sola no puede distinguir entre modelos que resisten el escepticismo debido a la comprensión versus aquellos que parecen robustos porque fallan en percibir la señal.