يقدم الباحثون MultiSynt/MT، وهو مجموعة متوازية اصطناعية مفتوحة تحتوي على حوالي 4.8 تريليون رمز للغة الهدف عبر 36 لغة أوروبية. تم إنشاء مجموعة البيانات عن طريق ترجمة 100 مليار رمز من Nemotron-CC عالي الجودة باستخدام أنظمة Tower+ و OPUS-MT/HPLT-MT.

  • يوفر MultiSynt/MT أكبر مورد متاح بشكل مفتوح للتدريب المسبق للعديد من اللغات الأوروبية ذات الموارد المتوسطة والمنخفضة.
  • تحقق نماذج LLM المدربة على هذه المجموعة نتائج قابلة للمقارنة مع الخطوط الأساسية للبيانات الأصلية (HPLT 2.0) باستخدام حوالي 72% أقل من رموز التدريب المسبق.
  • عند ميزانية تدريب متطابقة تبلغ 100 مليار رمز، تتفوق النماذج على الخط الأساسي بنسبة نسبية تقارب 15%.
  • تفشل معايير الاختيار المتعدد القياسية في التقاط فروق جودة الترجمة التي تعيد تقييمات LLM-as-jadge الحساسة للسلاسة اكتشافها.

يدعم هذا الإصدار البحث الخاضع للرقابة حول بيانات وتقييم التدريب المسبق متعدد اللغات، مما يعالج تركيز مجموعات البيانات على نطاق الويب في اللغة الإنجليزية.