تقيّم دراسة جديدة قدرة نماذج اللغات الكبيرة (LLMs) على تحفيز حالات معتقد محددة لدى وكلاء آخرين من خلال الأفعال بدلاً من المحادثة، وهي قدرة تُسمى نظرية العقل بالتخطيط غير التواصلي (NCP-ToM).

باستخدام إطار عمل NCP-ExploreToM، اختبر الباحثون ستة نماذج رائدة ومشاركين بشريين على 600 حالة مهمة حيث كان على الوكلاء تحريك الأشياء أو توجيه الشخصيات لتحقيق أهداف المعتقد.

  • نجح GPT-5 في حوالي 80% من المهام في الإعداد الوكيلائي.
  • كان GPT-5 النموذج الوحيد الذي تفوق على المشاركين البشر، رغم أنه ظل أقل متانة عبر السياقات المختلفة.
  • حقق جميع النماذج والبشر أداءً أفضل في تحفيز حالات المعتقد الصحيحة مقارنة بالغير صحيحة.

تسلط النتائج الضوء على قدرات الاستدلال الاجتماعي الناشئة في نماذج اللغات الكبيرة لإكمال المهام غير التواصلي، وتؤكد على ضرورة التقييمات الوكيلية لفهم سلامة ومواءمة الوكلاء الاجتماعيين المستقلين.