扩展是否能通过大语言模型改善社会模拟？

本研究调查了当前的语言模型扩展范式是否能够弥合社会模拟在意见建模、行为模拟和纵向预测方面的保真度差距。通过使用在固定计算预算（从 $10^{18}$ 到 $10^{20}$ FLOPs）下在 DCLM 语料库上训练的 85 个 Qwen3 变压器模型，作者分析了计算规模与模拟准确性之间的关系。

作者得出结论，虽然规模通常能改善社会模拟，但在低资源领域以及与通用推理能力不相关的特定人类行为方面，可靠性会降低。