एक नया अध्ययन बड़े भाषा मॉडलों (LLMs) की क्षमता का मूल्यांकन करता है कि वे संवाद के बजाय कार्रवाई के माध्यम से अन्य एजेंट्स में विशिष्ट विश्वास अवस्थाओं को प्रेरित कर सकते हैं, जिसे गैर-संवादात्मक योजना ToM (NCP-ToM) कहा जाता है। NCP-ExploreToM फ्रेमवर्क का उपयोग करते हुए, शोधकर्ताओं ने छह अग्रणी मॉडलों और मानव भागीदारों का 600 कार्य उदाहरणों पर परीक्षण किया जहां एजेंट्स को विश्वास लक्ष्यों को प्राप्त करने के लिए वस्तुओं को स्थानांतरित करना या पात्रों को निर्देश देना था।
- GPT-5 ने एजेंटिक सेटिंग में लगभग 80% कार्यों में सफलता हासिल की।
- GPT-5 मानव भागीदारों को पछाड़ने वाला एकमात्र मॉडल था, हालांकि यह संदर्भों के बीच कम मजबूत बना रहा।
- सभी मॉडलों और मानवों ने असत्य विश्वास अवस्थाओं की तुलना में सत्य विश्वास अवस्थाओं को प्रेरित करने में बेहतर प्रदर्शन किया।
यह निष्कर्ष LLMs में गैर-संवादात्मक कार्य पूर्णता के लिए उभरते सामाजिक-तर्क क्षमताओं को उजागर करता है और स्वतंत्र सामाजिक एजेंट्स की सुरक्षा और संरेखण को समझने के लिए एजेंटिक मूल्यांकन की आवश्यकता पर जोर देता है।