Los investigadores proponen CausalMix, un método que formula la optimización de mezclas de datos de modelos de lenguaje grandes como un problema de inferencia causal para abordar las limitaciones de los supuestos de distribución estática en métodos existentes. El enfoque formula características estadísticas como covariables y mezclas de dominio como tratamientos, estimando el Efecto Promedio Condicional del Tratamiento (CATE) a partir de 512 ejecuciones de Qwen2.5-0.5B para extrapolar las mezclas óptimas para modelos más grandes.

  • CausalMix infiere dinámicamente mezclas de datos óptimas dependientes del estado aprovechando el modelado causal para aislar sesgos confundidores.
  • El marco generaliza exitosamente a datos largos de cadena de pensamiento en Qwen3-4B-Base.
  • Los experimentos muestran que la mezcla guiada por CausalMix mejora consistentemente el rendimiento en múltiples tareas downstream, superando a RegMix y otras líneas base.
  • Se proporciona un Intérprete CATE para el análisis visual de la estrategia de mezclado aprendida.

CausalMix ofrece un marco causal e interpretable para optimizar mezclas de datos de LLM, permitiendo un escalado sin fisuras desde configuraciones pequeñas a grandes conjuntos de datos sin costoso reentrenamiento.