यह अध्ययन जांचता है कि वर्तमान भाषा मॉडल स्केलिंग पैराडाइम क्या राय मॉडलिंग, व्यवहारिक सिमुलेशन और दीर्घकालिक पूर्वानुमान में सामाजिक सिमुलेशन के विश्वसनीयता अंतर को बंद कर सकते हैं। $10^{18}$ से $10^{20}$ FLOPs तक स्थिर-कंप्यूट बजट के तहत DCLM कॉर्पस पर प्रशिक्षित 85 Qwen3 ट्रान्सफॉर्मर मॉडल का उपयोग करते हुए, लेखक कंप्यूट स्केल और सिमुलेशन सटीकता के बीच संबंध का विश्लेषण करते हैं।
- 70B पैरामीटर तक 35 ओपन-वेट मॉडल पर लागू स्केलिंग कानून भविष्यवाणी करते हैं कि अधिकांश व्यवहारिक और राय कार्य स्केल के साथ तेजी से सुधार करेंगे, विशेष रूप से अंग्रेजी वेब कॉर्पस में अच्छी तरह से प्रतिनिधित्व की गई आबादी के लिए।
- दीर्घकालिक पूर्वानुमान और कम प्रतिनिधित्व वाली राय धीमी गति से स्केल होती हैं, खासकर जब वे MMLU जैसे सामान्य ज्ञान बेंचमार्क्स से कम सहसंबद्ध होते हैं।
- 0.5B से 8B पैरामीटर तक फाइन-ट्यूनिंग के साथ भी, स्केलिंग जोखिम अवरण या सहसंबद्ध पुरस्कारों का सीखने जैसे मानव संज्ञानात्मक पूर्वाग्रहों के लिए मॉडल कैलिब्रेशन को सुधारने में विफल रहती है।
लेखकों का निष्कर्ष है कि हालांकि स्केल आमतौर पर सामाजिक सिमुलेशन को बेहतर बनाता है, विश्वसनीयता कम-संसाधन डोमेन और उन विशिष्ट मानव-समान व्यवहारों में कम हो जाती है जो सामान्य तर्कशक्ति क्षमताओं से सहसंबद्ध नहीं होते हैं।