تتحقق هذه الدراسة مما إذا كانت نماذج توسيع النماذج اللغوية الحالية يمكنها سد فجوات الدقة في المحاكاة الاجتماعية عبر نمذجة الآراء، ومحاكاة السلوك، والتنبؤ الطولي. باستخدام 85 نموذجًا محولًا من نوع Qwen3 تم تدريبها على مجموعة بيانات DCLM ضمن ميزانيات حسابية ثابتة تتراوح بين $10^{18}$ و$10^{20}$ عملية فلوب (FLOPs)، حلل المؤلفون العلاقة بين حجم الحساب ودقة المحاكاة.

  • تتوقع قوانين التوسع المطبقة على 35 نموذجًا بوزن مفتوح يصل إلى 70 مليار معلمة أن معظم مهام السلوك والآراء ستتحسن بسرعة مع التوسع، خاصة بالنسبة للسكان الممثلين جيدًا في مجموعات الويب باللغة الإنجليزية.
  • يتوسع التنبؤ الطولي والآراء غير الممثلة بشكل كافٍ ببطء أكبر، خاصة عندما تكون أقل ارتباطًا بمعايير المعرفة العامة مثل MMLU.
  • يفشل التوسع في تحسين معايرة النماذج للتحيزات المعرفية البشرية مثل تجنب المخاطر أو الاستدلالات مثل تعلم المكافآت المترابطة، حتى مع الضبط الدقيق من 0.5 مليار إلى 8 مليارات معلمة.

يخلص المؤلفون إلى أنه بينما يحسن الحجم عمومًا المحاكاة الاجتماعية، تنخفض الموثوقية في المجالات منخفضة الموارد وفي السلوكيات البشرية المحددة التي لا ترتبط بقدرات الاستدلال العامة.