Este estudo investiga se os paradigmas atuais de escalabilidade de modelos de linguagem podem fechar lacunas de fidelidade em simulações sociais através do modelamento de opiniões, simulação comportamental e previsão longitudinal. Usando 85 modelos transformadores Qwen3 treinados no corpus DCLM sob orçamentos fixos de computação de $10^{18}$ a $10^{20}$ FLOPs, os autores analisam a relação entre a escala da computação e a precisão da simulação.

  • As leis de escalabilidade aplicadas a 35 modelos de peso aberto até 70B parâmetros preveem que a maioria das tarefas comportamentais e de opinião melhorará rapidamente com a escala, particularmente para populações bem representadas em corpora web em inglês.
  • A previsão longitudinal e as opiniões sub-representadas escalam mais lentamente, especialmente quando menos correlacionadas com benchmarks de conhecimento geral como MMLU.
  • A escalabilidade falha em melhorar a calibração do modelo para vieses cognitivos humanos como aversão ao risco ou heurísticas como aprendizado de recompensas correlacionadas, mesmo com ajuste fino de 0.5B a 8B parâmetros.

Os autores concluem que, embora a escala geralmente melhore as simulações sociais, a confiabilidade diminui em domínios de baixo recurso e para comportamentos específicos semelhantes aos humanos que não se correlacionam com capacidades gerais de raciocínio.