Исследователи предлагают CausalMix, метод, который преобразует оптимизацию смесей данных больших языковых моделей в задачу каузального вывода, чтобы устранить ограничения статических предположений о распределении, присущих существующим методам. Подход формулирует статистические признаки как ковариаты, а доменные смеси — как воздействия, оценивая Условный Средний Эффект Воздействия (CATE) по 512 запускам Qwen2.5-0.5B для экстраполяции оптимальных смесей для более крупных моделей.
- CausalMix динамически выводит оптимальные смеси данных, зависящие от состояния, используя каузальное моделирование для изоляции смешивающих смещений.
- Фреймворк успешно обобщается на длинные данные цепочки рассуждений (chain-of-thought) в Qwen3-4B-Base.
- Эксперименты показывают, что смесь, направляемая CausalMix, последовательно улучшает производительность по множеству downstream-задач, превосходя RegMix и другие базовые методы.
- Предоставлен Интерпретатор CATE для визуального анализа изученной стратегии смешивания.
CausalMix предлагает каузальный и интерпретируемый фреймворк для оптимизации смесей данных LLM, позволяя бесшовно масштабироваться от небольших настроек к большим пулам данных без дорогостоящего переобучения.