В данном исследовании изучается, могут ли современные парадигмы масштабирования языковых моделей закрыть разрывы в точности социальных симуляций в задачах моделирования мнений, поведенческого моделирования и долгосрочного прогнозирования. Используя 85 трансформеров Qwen3, обученных на корпусе DCLM в рамках фиксированных вычислительных бюджетов от $10^{18}$ до $10^{20}$ FLOPs, авторы анализируют взаимосвязь между масштабом вычислений и точностью симуляции.

  • Законы масштабирования, примененные к 35 моделям с открытым весом до 70B параметров, предсказывают, что большинство задач поведенческого моделирования и формирования мнений будут быстро улучшаться при увеличении масштаба, особенно для популяций, хорошо представленных в английских веб-корпусах.
  • Долгосрочное прогнозирование и недостаточно представленные мнения масштабируются медленнее, особенно когда они менее коррелируют с общими бенчмарками знаний, такими как MMLU.
  • Масштабирование не улучшает калибровку моделей для человеческих когнитивных искажений, таких как неприятие риска, или эвристик, таких как обучение коррелированным вознаграждениям, даже при дообучении от 0.5B до 8B параметров.

Авторы приходят к выводу, что, хотя масштаб в целом улучшает социальные симуляции, надежность снижается в областях с низким ресурсом и для специфических человеческоподобных поведений, которые не коррелируют с общими способностями к рассуждению.