研究人员提出了CausalMix,一种将大型语言模型数据混合优化表述为因果推断问题的方法,以解决现有方法中静态分布假设的局限性。该方法将统计特征公式化为协变量,将域混合公式化为处理,通过对512次Qwen2.5-0.5B运行估计条件平均处理效应(CATE),从而外推更大模型的最优混合。

  • CausalMix通过利用因果建模隔离混杂偏差,动态推断依赖于状态的最优数据混合。
  • 该框架成功泛化到Qwen3-4B-Base上的长链思维数据。
  • 实验表明,由CausalMix引导的混合在多个下游任务中一致地提升性能,优于RegMix和其他基线。
  • 提供了CATE解释器用于可视化分析所学到的混合策略。

CausalMix为优化LLM数据混合提供了一个因果且可解释的框架,允许从小规模设置无缝扩展到更大的数据池,而无需昂贵的重新训练。