CausalMix optimise les mélanges de données des LLM par inférence causale

Les chercheurs proposent CausalMix, une méthode qui reformule l'optimisation des mélanges de données des grands modèles de langage (LLM) en un problème d'inférence causale pour pallier les limites des hypothèses de distribution statique dans les méthodes existantes. L'approche formule les caractéristiques statistiques comme des covariables et les mélanges de domaines comme des traitements, estimant l'Effet Moyen Conditionnel du Traitement (CATE) à partir de 512 exécutions de Qwen2.5-0.5B pour extrapoler les mélanges optimaux pour des modèles plus grands.

CausalMix infère dynamiquement les mélanges de données optimaux dépendants de l'état en exploitant la modélisation causale pour isoler les biais de confusion.
Le cadre généralise avec succès aux données de chain-of-thought longues sur Qwen3-4B-Base.
Les expériences montrent que le mélange guidé par CausalMix améliore constamment les performances sur plusieurs tâches en aval, surpassant RegMix et d'autres références.
Un interpréteur CATE est fourni pour l'analyse visuelle de la stratégie de mélange apprise.

CausalMix offre un cadre causal et interprétable pour optimiser les mélanges de données des LLM, permettant une mise à l'échelle transparente des petits paramètres aux grands ensembles de données sans réentraînement coûteux.