Los LLM muestran políticas distintas bajo presión escéptica en lugar de retirada sicológica

Un estudio que prueba Llama-3.1-8B, Qwen2.5-7B y Mistral-7B en dominios de clima, vacunas y evolución encuentra que los modelos no se retiran sicológicamente del consenso científico cuando los usuarios señalan duda. En cambio, los modelos exhiben tres políticas distintas: afirmación reactiva donde el consenso aumenta (Llama), hedging superficial con tono suavizado (Qwen) y no respuesta (Mistral).

La evaluación conductual confirma que el cambio reactivo es un cambio de postura impulsado por la mayor afirmación del consenso en lugar de un falso equilibrio.
Las sondas lineales localizan la divergencia en capas medias, mostrando separación perfecta en Llama y Qwen versus 72% en Mistral.
La robustez observada no se transfiere entre dominios y puede revertirse en discusiones sobre vacunas bajo presión escéptica.

Los autores argumentan que la evaluación conductual por sí sola no puede distinguir entre modelos que resisten el escepticismo debido a la comprensión versus aquellos que parecen robustos porque fallan en percibir la señal.