MultiSynt/MT تطلق مجموعة متوازية من 4.8 تريليون رمز عبر 36 لغة

يقدم الباحثون MultiSynt/MT، وهو مجموعة متوازية اصطناعية مفتوحة تحتوي على حوالي 4.8 تريليون رمز للغة الهدف عبر 36 لغة أوروبية. تم إنشاء مجموعة البيانات عن طريق ترجمة 100 مليار رمز من Nemotron-CC عالي الجودة باستخدام أنظمة Tower+ و OPUS-MT/HPLT-MT.

يوفر MultiSynt/MT أكبر مورد متاح بشكل مفتوح للتدريب المسبق للعديد من اللغات الأوروبية ذات الموارد المتوسطة والمنخفضة.
تحقق نماذج LLM المدربة على هذه المجموعة نتائج قابلة للمقارنة مع الخطوط الأساسية للبيانات الأصلية (HPLT 2.0) باستخدام حوالي 72% أقل من رموز التدريب المسبق.
عند ميزانية تدريب متطابقة تبلغ 100 مليار رمز، تتفوق النماذج على الخط الأساسي بنسبة نسبية تقارب 15%.
تفشل معايير الاختيار المتعدد القياسية في التقاط فروق جودة الترجمة التي تعيد تقييمات LLM-as-jadge الحساسة للسلاسة اكتشافها.

يدعم هذا الإصدار البحث الخاضع للرقابة حول بيانات وتقييم التدريب المسبق متعدد اللغات، مما يعالج تركيز مجموعات البيانات على نطاق الويب في اللغة الإنجليزية.