Este estudio investiga si los paradigmas actuales de escalado de modelos de lenguaje pueden cerrar las brechas de fidelidad en las simulaciones sociales a través del modelado de opiniones, la simulación conductual y la predicción longitudinal. Utilizando 85 modelos transformadores Qwen3 entrenados en el corpus DCLM bajo presupuestos de cómputo fijos desde $10^{18}$ hasta $10^{20}$ FLOPs, los autores analizan la relación entre la escala del cómputo y la precisión de la simulación.

  • Las leyes de escalado aplicadas a 35 modelos de peso abierto hasta 70B parámetros predicen que la mayoría de las tareas conductuales y de opinión mejorarán rápidamente con la escala, particularmente para poblaciones bien representadas en corpus web en inglés.
  • La predicción longitudinal y las opiniones subrepresentadas escalan más lentamente, especialmente cuando están menos correlacionadas con benchmarks de conocimiento general como MMLU.
  • El escalado no mejora la calibración del modelo para sesgos cognitivos humanos como la aversión al riesgo o heurísticas como el aprendizaje de recompensas correlacionadas, incluso con ajuste fino desde 0.5B hasta 8B parámetros.

Los autores concluyen que, aunque el escalado generalmente mejora las simulaciones sociales, la fiabilidad disminuye en dominios de bajos recursos y para comportamientos específicos similares a humanos que no se correlacionan con capacidades generales de razonamiento.