本研究调查了当前的语言模型扩展范式是否能够弥合社会模拟在意见建模、行为模拟和纵向预测方面的保真度差距。通过使用在固定计算预算(从 $10^{18}$ 到 $10^{20}$ FLOPs)下在 DCLM 语料库上训练的 85 个 Qwen3 变压器模型,作者分析了计算规模与模拟准确性之间的关系。
- 应用于最多 70B 参数的 35 个开源模型的扩展定律预测,大多数行为和意见任务将随着规模的扩大而迅速改善,特别是对于在英语网络语料库中充分代表的人群。
- 纵向预测和代表性不足的意见扩展速度较慢,尤其是当它们与 MMLU 等通用知识基准的相关性较低时。
- 即使从 0.5B 到 8B 参数进行微调,扩展也无法改善模型对人类认知偏差(如风险厌恶)或学习相关奖励等启发式的校准。
作者得出结论,虽然规模通常能改善社会模拟,但在低资源领域以及与通用推理能力不相关的特定人类行为方面,可靠性会降低。