CausalMix otimiza misturas de dados de LLM via inferência causal

Pesquisadores propõem o CausalMix, um método que formula a otimização de misturas de dados de modelos de linguagem grandes como um problema de inferência causal para abordar as limitações das suposições de distribuição estática em métodos existentes. A abordagem formula características estatísticas como covariáveis e misturas de domínio como tratamentos, estimando o Efeito Médio Condicional do Tratamento (CATE) a partir de 512 execuções do Qwen2.5-0.5B para extrapolar as misturas ótimas para modelos maiores.

O CausalMix infere dinamicamente misturas de dados ótimas dependentes do estado, aproveitando o modelamento causal para isolar vieses confundidores.
A estrutura generaliza com sucesso para dados longos de cadeia de pensamento no Qwen3-4B-Base.
Experimentos mostram que a mistura guiada pelo CausalMix melhora consistentemente o desempenho em múltiplas tarefas downstream, superando o RegMix e outras linhas de base.
Um Intérprete CATE é fornecido para análise visual da estratégia de mistura aprendida.

O CausalMix oferece uma estrutura causal e interpretável para otimizar misturas de dados de LLM, permitindo escalonamento contínuo de configurações pequenas para grandes pools de dados sem re-treinamento custoso.