Studi ini menyelidiki apakah paradigma penskalaan model bahasa saat ini dapat menutup kesenjangan kesetiaan dalam simulasi sosial di pemodelan opini, simulasi perilaku, dan peramalan longitudinal. Menggunakan 85 model transformer Qwen3 yang dilatih pada korpus DCLM dengan anggaran komputasi tetap dari $10^{18}$ hingga $10^{20}$ FLOPs, para penulis menganalisis hubungan antara skala komputasi dan akurasi simulasi.
- Hukum penskalaan yang diterapkan pada 35 model bobot terbuka hingga 70B parameter memprediksi bahwa sebagian besar tugas perilaku dan opini akan meningkat pesat dengan skala, terutama untuk populasi yang terwakili dengan baik dalam korpus web bahasa Inggris.
- Peramalan longitudinal dan opini yang kurang terwakili berskala lebih lambat, terutama ketika kurang berkorelasi dengan benchmark pengetahuan umum seperti MMLU.
- Penskalaan gagal meningkatkan kalibrasi model untuk bias kognitif manusia seperti aversi risiko atau heuristik seperti pembelajaran reward berkorelasi, bahkan dengan fine-tuning dari 0,5B hingga 8B parameter.
Para penulis menyimpulkan bahwa meskipun skala umumnya meningkatkan simulasi sosial, keandalan menurun di domain sumber daya rendah dan untuk perilaku spesifik yang mirip manusia yang tidak berkorelasi dengan kemampuan penalaran umum.