연구자들은 기존 방법의 정적 분포 가정의 한계를 해결하기 위해 대규모 언어 모델의 데이터 혼합 최적화를 인과 추론 문제로 재구성하는 방법인 CausalMix를 제안합니다. 이 접근법은 통계적 특성을 공변량으로, 도메인 혼합을 치료로 공식화하고 Qwen2.5-0.5B의 512회 실행에서 조건부 평균 치료 효과(CATE)를 추정하여 더 큰 모델에 대한 최적 혼합을 외삽합니다.
- CausalMix는 인과 모델링을 활용하여 교란 편향을 분리함으로써 상태 의존적 최적 데이터 혼합을 동적으로 추론합니다.
- 이 프레임워크는 Qwen3-4B-Base의 긴 chain-of-thought 데이터에 대해 성공적으로 일반화됩니다.
- 실험 결과 CausalMix가 유도한 혼합이 여러 하류 작업 전반에 걸쳐 일관되게 성능을 향상시키며 RegMix 및 기타 베이스라인을 능가함을 보여줍니다.
- 학습된 혼합 전략의 시각적 분석을 위해 CATE Interpreter가 제공됩니다.
CausalMix는 비용이 많이 드는 재학습 없이 작은 설정에서 더 큰 데이터 풀로 원활하게 확장할 수 있는 LLM 데이터 혼합 최적화를 위한 인과적이고 해석 가능한 프레임워크를 제공합니다.