A Escalabilidade Melhorará a Simulação Social com LLMs?

Este estudo investiga se os paradigmas atuais de escalabilidade de modelos de linguagem podem fechar lacunas de fidelidade em simulações sociais através do modelamento de opiniões, simulação comportamental e previsão longitudinal. Usando 85 modelos transformadores Qwen3 treinados no corpus DCLM sob orçamentos fixos de computação de $10^{18}$ a $10^{20}$ FLOPs, os autores analisam a relação entre a escala da computação e a precisão da simulação.

As leis de escalabilidade aplicadas a 35 modelos de peso aberto até 70B parâmetros preveem que a maioria das tarefas comportamentais e de opinião melhorará rapidamente com a escala, particularmente para populações bem representadas em corpora web em inglês.
A previsão longitudinal e as opiniões sub-representadas escalam mais lentamente, especialmente quando menos correlacionadas com benchmarks de conhecimento geral como MMLU.
A escalabilidade falha em melhorar a calibração do modelo para vieses cognitivos humanos como aversão ao risco ou heurísticas como aprendizado de recompensas correlacionadas, mesmo com ajuste fino de 0.5B a 8B parâmetros.

Os autores concluem que, embora a escala geralmente melhore as simulações sociais, a confiabilidade diminui em domínios de baixo recurso e para comportamentos específicos semelhantes aos humanos que não se correlacionam com capacidades gerais de raciocínio.