Peneliti mengusulkan CausalMix, sebuah metode yang memformulasikan optimasi campuran data model bahasa besar sebagai masalah inferensi kausal untuk mengatasi keterbatasan asumsi distribusi statis dalam metode yang ada. Pendekatan ini merumuskan fitur statistik sebagai kovariat dan campuran domain sebagai perlakuan, memperkirakan Efek Rata-rata Perlakuan Bersyarat (CATE) dari 512 kali jalankan Qwen2.5-0.5B untuk mengekstrapolasi campuran optimal untuk model yang lebih besar.
- CausalMix secara dinamis menyimpulkan campuran data optimal yang bergantung pada keadaan dengan memanfaatkan pemodelan kausal untuk mengisolasi bias pengacau.
- Kerangka kerja ini berhasil digeneralisasi ke data chain-of-thought panjang pada Qwen3-4B-Base.
- Eksperimen menunjukkan bahwa campuran yang dipandu oleh CausalMix secara konsisten meningkatkan kinerja di berbagai tugas turunan, melampaui RegMix dan baseline lainnya.
- Sebuah Interpreter CATE disediakan untuk analisis visual strategi pencampuran yang dipelajari.
CausalMix menawarkan kerangka kerja kausal dan dapat diinterpretasi untuk mengoptimalkan campuran data LLM, memungkinkan penskalaan mulus dari pengaturan kecil ke kumpulan data yang lebih besar tanpa pelatihan ulang yang mahal.