スケーリングはLLMを用いた社会シミュレーションを改善するのか？

本研究は、現在の言語モデルのスケーリングパラダイムが、意見モデリング、行動シミュレーション、長期予測にわたる社会シミュレーションの忠実度のギャップを埋められるかを調査する。10^18から10^20 FLOPsまでの固定計算予算でDCLMコーパス上で訓練された85個のQwen3トランスフォーマーモデルを用い、著者らは計算規模とシミュレーション精度の関係を分析した。

最大70Bパラメータの35個のオープンウェイトモデルに適用されたスケーリング法則は、英語ウェブコーパスで十分に表現されている集団にとって、特に大部分の行動および意見タスクがスケールとともに急速に改善すると予測している。
長期予測と過小表現された意見のスケーリングはより緩やかであり、MMLUのような一般知識ベンチマークとの相関が低い場合に特に顕著である。
スケーリングは、0.5Bから8Bパラメータへのファインチューニングを行っても、リスク回避や相関報酬の学習などのヒューマンな認知バイアスやヒューリスティックスに対するモデルの較正を改善できない。

著者らは、スケールが一般的に社会シミュレーションを改善する一方で、低リソースドメインや一般推論能力と相関しない特定の人間のような行動においては信頼性が低下すると結論づけている。