스케일링은 LLM을 사용한 사회 시뮬레이션을 개선할 수 있을까?

본 연구는 현재의 언어 모델 스케일링 패러다임이 의견 모델링, 행동 시뮬레이션 및 종단적 예측에 걸쳐 사회 시뮬레이션의 충실도 격차를 해소할 수 있는지 조사합니다. 10^18에서 10^20 FLOPs까지의 고정 컴퓨팅 예산으로 DCLM 코퍼스에서 훈련된 85개의 Qwen3 트랜스포머 모델을 사용하여 저자들은 컴퓨팅 스케일과 시뮬레이션 정확도 간의 관계를 분석했습니다.

최대 70B 파라미터를 가진 35개의 오픈 가중치 모델에 적용된 스케일링 법칙은 영어 웹 코퍼스에서 잘 표현된 집단에 대해 특히 대부분의 행동 및 의견 작업이 스케일에 따라 급격히 개선될 것이라고 예측합니다.
종단적 예측과 과소 표현된 의견의 스케일링은 더 느리게 진행되며, MMLU와 같은 일반 지식 벤치마크와의 상관관계가 낮을 때 특히 두드러집니다.
스케일링은 0.5B에서 8B 파라미터로 파인튜닝을 수행하더라도 위험 회피나 상관 보상 학습과 같은 인간의 인지 편향이나 휴리스틱에 대한 모델의 교정을 개선하지 못합니다.

저자들은 스케일이 일반적으로 사회 시뮬레이션을 개선하지만, 저자원 도메인과 일반 추론 능력과 상관관계가 없는 특정 인간 유사 행동의 경우 신뢰성이 감소한다고 결론지었습니다.