Улучшит ли масштабирование социальное моделирование с помощью LLM?

В данном исследовании изучается, могут ли современные парадигмы масштабирования языковых моделей закрыть разрывы в точности социальных симуляций в задачах моделирования мнений, поведенческого моделирования и долгосрочного прогнозирования. Используя 85 трансформеров Qwen3, обученных на корпусе DCLM в рамках фиксированных вычислительных бюджетов от $10^{18}$ до $10^{20}$ FLOPs, авторы анализируют взаимосвязь между масштабом вычислений и точностью симуляции.

Законы масштабирования, примененные к 35 моделям с открытым весом до 70B параметров, предсказывают, что большинство задач поведенческого моделирования и формирования мнений будут быстро улучшаться при увеличении масштаба, особенно для популяций, хорошо представленных в английских веб-корпусах.
Долгосрочное прогнозирование и недостаточно представленные мнения масштабируются медленнее, особенно когда они менее коррелируют с общими бенчмарками знаний, такими как MMLU.
Масштабирование не улучшает калибровку моделей для человеческих когнитивных искажений, таких как неприятие риска, или эвристик, таких как обучение коррелированным вознаграждениям, даже при дообучении от 0.5B до 8B параметров.

Авторы приходят к выводу, что, хотя масштаб в целом улучшает социальные симуляции, надежность снижается в областях с низким ресурсом и для специфических человеческоподобных поведений, которые не коррелируют с общими способностями к рассуждению.