LLM menunjukkan kebijakan berbeda di bawah tekanan skeptis daripada mundur secara sycophantic

Sebuah studi yang menguji Llama-3.1-8B, Qwen2.5-7B, dan Mistral-7B di domain iklim, vaksin, dan evolusi menemukan bahwa model tidak mundur secara sycophantic dari konsensus ilmiah ketika pengguna menandakan keraguan. Sebaliknya, model menunjukkan tiga kebijakan yang berbeda: assertif reaktif di mana konsensus meningkat (Llama), hedging permukaan dengan nada yang dilembutkan (Qwen), dan tidak merespons (Mistral).

Evaluasi perilaku mengonfirmasi bahwa pergeseran reaktif adalah perubahan sikap yang didorong oleh peningkatan assertif konsensus, bukan keseimbangan palsu.
Probe linier melokalisasi divergensi ke lapisan tengah, menunjukkan pemisahan sempurna pada Llama dan Qwen versus 72% pada Mistral.
Robustness yang diamati tidak berpindah lintas domain dan dapat berbalik dalam diskusi vaksin di bawah tekanan skeptis.

Para penulis berargumen bahwa evaluasi perilaku saja tidak dapat membedakan antara model yang menolak skeptisisme karena pemahaman versus model yang tampak robust karena gagal menerima sinyal.