يقترح الباحثون CausalMix، وهي طريقة تعيد صياغة تحسين خلطات بيانات نماذج اللغات الكبيرة كمشكلة استدلال سبي لمعالجة قيود افتراضات التوزيع الثابت في الطرق الحالية. تقوم هذه المنهجية بصياغة السمات الإحصائية كمترافقات وخلطات النطاقات كعلاجات، وتقدير التأثير العلاجي المتوسط الشرطي (CATE) من 512 تشغيلًا لـ Qwen2.5-0.5B لاستقراء الخلطات المثلى للنماذج الأكبر.

  • يستنتج CausalMix ديناميكيًا خلطات البيانات المثلى المعتمدة على الحالة عن طريق الاستفادة من النمذجة السببية لعزل تحيزات التشويش.
  • يعمم الإطار بنجاح على بيانات chain-of-thought الطويلة على Qwen3-4B-Base.
  • تُظهر التجارب أن الخلطة الموجهة بواسطة CausalMix تحسّن الأداء باستمرار عبر مهام متعددة، متفوقةً على RegMix والأساسيات الأخرى.
  • يُقدّم مفسّر CATE للتحليل البصري لاستراتيجية الخلط المتعلمة.

يوفر CausalMix إطار عمل سببي وقابل للتفسير لتحسين خلطات بيانات نماذج اللغات الكبيرة، مما يتيح التوسع السلس من الإعدادات الصغيرة إلى مجموعات البيانات الأكبر دون إعادة تدريب مكلف.