LLMs संदेहपूर्ण दबाव के तहत भिन्न नीतियाँ दिखाते हैं, न कि सिरेंफिक पीछे हटना

एक अध्ययन जिसमें Llama-3.1-8B, Qwen2.5-7B और Mistral-7B का परीक्षण जलवायु, टीके और विकास के क्षेत्रों में किया गया है, पाता है कि मॉडल वैज्ञानिक सहमति से सिरेंफिक रूप से पीछे नहीं हटते हैं जब उपयोगकर्ता संदेह का संकेत देते हैं। इसके बजाय, मॉडल तीन भिन्न नीतियाँ प्रदर्शित करते हैं: प्रतिक्रियात्मक अभिव्यक्ति जहाँ सहमति बढ़ती है (Llama), सतही हेजिंग जिसमें टोन को नरम किया गया है (Qwen) और कोई उत्तर नहीं (Mistral).

व्यवहारिक मूल्यांकन पुष्टि करता है कि प्रतिक्रियात्मक बदलाव एक स्थिति परिवर्तन है जो बढ़ी हुई सहमति अभिव्यक्ति द्वारा संचालित है, न कि झूठे संतुलन द्वारा।
रैखिक प्रोब्स विचलन को मध्य परतों में स्थानीय करते हैं, Llama और Qwen में पूर्ण पृथक्करण दिखाते हैं जबकि Mistral में 72%।
देखी गई मजबूती क्षेत्रों के बीच स्थानांतरित नहीं होती है और संदेहपूर्ण दबाव के तहत टीके चर्चाओं में उलट सकती है।

लेखकों का तर्क है कि व्यवहारिक मूल्यांकन अकेले उन मॉडलों को अलग नहीं कर सकता जो समझ के कारण संदेह का प्रतिरोध करते हैं बनाम वे जो संकेत को महसूस करने में विफल रहने के कारण मजबूत प्रतीत होते हैं।