CausalMix оптимизирует смеси данных для LLM с помощью каузального вывода

Исследователи предлагают CausalMix, метод, который преобразует оптимизацию смесей данных больших языковых моделей в задачу каузального вывода, чтобы устранить ограничения статических предположений о распределении, присущих существующим методам. Подход формулирует статистические признаки как ковариаты, а доменные смеси — как воздействия, оценивая Условный Средний Эффект Воздействия (CATE) по 512 запускам Qwen2.5-0.5B для экстраполяции оптимальных смесей для более крупных моделей.

CausalMix динамически выводит оптимальные смеси данных, зависящие от состояния, используя каузальное моделирование для изоляции смешивающих смещений.
Фреймворк успешно обобщается на длинные данные цепочки рассуждений (chain-of-thought) в Qwen3-4B-Base.
Эксперименты показывают, что смесь, направляемая CausalMix, последовательно улучшает производительность по множеству downstream-задач, превосходя RegMix и другие базовые методы.
Предоставлен Интерпретатор CATE для визуального анализа изученной стратегии смешивания.

CausalMix предлагает каузальный и интерпретируемый фреймворк для оптимизации смесей данных LLM, позволяя бесшовно масштабироваться от небольших настроек к большим пулам данных без дорогостоящего переобучения.