Исследователи предлагают CausalMix, метод, который преобразует оптимизацию смесей данных больших языковых моделей в задачу каузального вывода, чтобы устранить ограничения статических предположений о распределении, присущих существующим методам. Подход формулирует статистические признаки как ковариаты, а доменные смеси — как воздействия, оценивая Условный Средний Эффект Воздействия (CATE) по 512 запускам Qwen2.5-0.5B для экстраполяции оптимальных смесей для более крупных моделей.

  • CausalMix динамически выводит оптимальные смеси данных, зависящие от состояния, используя каузальное моделирование для изоляции смешивающих смещений.
  • Фреймворк успешно обобщается на длинные данные цепочки рассуждений (chain-of-thought) в Qwen3-4B-Base.
  • Эксперименты показывают, что смесь, направляемая CausalMix, последовательно улучшает производительность по множеству downstream-задач, превосходя RegMix и другие базовые методы.
  • Предоставлен Интерпретатор CATE для визуального анализа изученной стратегии смешивания.

CausalMix предлагает каузальный и интерпретируемый фреймворк для оптимизации смесей данных LLM, позволяя бесшовно масштабироваться от небольших настроек к большим пулам данных без дорогостоящего переобучения.