Cette étude examine si les paradigmes actuels de mise à l'échelle des modèles de langage peuvent combler les écarts de fidélité dans les simulations sociales, notamment en modélisation des opinions, simulation comportementale et prévision longitudinale. En utilisant 85 modèles transformateurs Qwen3 entraînés sur le corpus DCLM avec des budgets de calcul fixes allant de 10^18 à 10^20 FLOPs, les auteurs analysent la relation entre l'échelle de calcul et la précision de la simulation.

  • Les lois d'échelle appliquées à 35 modèles à poids ouverts jusqu'à 70 milliards de paramètres prédisent que la plupart des tâches comportementales et d'opinion s'amélioreront rapidement avec l'échelle, en particulier pour les populations bien représentées dans les corpus web anglais.
  • La prévision longitudinale et les opinions sous-représentées évoluent plus lentement à l'échelle, surtout lorsqu'elles sont moins corrélées aux benchmarks de connaissances générales comme MMLU.
  • Le scaling échoue à améliorer la calibration des modèles pour les biais cognitifs humains tels que l'aversion au risque ou les heuristiques comme l'apprentissage de récompenses corrélées, même avec un affinage (fine-tuning) de 0,5 à 8 milliards de paramètres.

Les auteurs concluent que bien que le scaling améliore généralement les simulations sociales, la fiabilité diminue dans les domaines à ressources limitées et pour des comportements humains spécifiques qui ne sont pas corrélés aux capacités de raisonnement général.