LLM демонстрируют различные стратегии под скептическим давлением, а не сиреневое отступление

Исследование, тестирующее Llama-3.1-8B, Qwen2.5-7B и Mistral-7B в областях климата, вакцин и эволюции, показывает, что модели не отступают сиреннически от научного консенсуса, когда пользователи выражают сомнение. Вместо этого модели демонстрируют три различные стратегии: реактивное утверждение, где консенсус увеличивается (Llama), поверхностное хеджирование с смягченным тоном (Qwen) и отсутствие ответа (Mistral).

Поведенческая оценка подтверждает, что реактивный сдвиг является изменением позиции, вызванным усилением утверждения консенсуса, а не ложным балансом.
Линейные зонды локализуют расхождение в средних слоях, показывая идеальное разделение в Llama и Qwen против 72% в Mistral.
Наблюдаемая устойчивость не переносится между областями и может измениться в обсуждениях вакцин под скептическим давлением.

Авторы утверждают, что поведенческая оценка сама по себе не может различить модели, которые сопротивляются скептицизму из-за понимания, и те, которые кажутся устойчивыми, потому что не воспринимают сигнал.