CausalMix通过因果推断优化LLM数据混合

研究人员提出了CausalMix，一种将大型语言模型数据混合优化表述为因果推断问题的方法，以解决现有方法中静态分布假设的局限性。该方法将统计特征公式化为协变量，将域混合公式化为处理，通过对512次Qwen2.5-0.5B运行估计条件平均处理效应（CATE），从而外推更大模型的最优混合。

CausalMix为优化LLM数据混合提供了一个因果且可解释的框架，允许从小规模设置无缝扩展到更大的数据池，而无需昂贵的重新训练。