MultiSynt/MT ने 36 भाषाओं में 4.8T-टोकन समानांतर कॉर्पस जारी किया

शोधकर्ताओं ने MultiSynt/MT पेश किया, जो एक खुला संश्लेषित समानांतर कॉर्पस है जिसमें 36 यूरोपीय भाषाओं में लगभग 4.8 ट्रिलियन लक्ष्य-भाषा टोकन शामिल हैं। डेटासेट को Tower+ और OPUS-MT/HPLT-MT सिस्टम का उपयोग करके 100 बिलियन उच्च-गुणवत्ता वाले Nemotron-CC टोकन के अनुवाद द्वारा उत्पन्न किया गया है।

MultiSynt/MT कई मध्यम और कम-संसाधन वाली यूरोपीय भाषाओं के लिए सबसे बड़ा खुले रूप से उपलब्ध पूर्व-प्रशिक्षण संसाधन प्रदान करता है।
इस कॉर्पस पर प्रशिक्षित LLM लगभग 72% कम पूर्व-प्रशिक्षण टोकन का उपयोग करके नेटिव-डेटा बेलाइन (HPLT 2.0) के तुलनीय स्कोर प्राप्त करते हैं।
100B-टोकन प्रशिक्षण बजट पर मेल खाते हुए, मॉडल सापेक्ष रूप से लगभग 15% बेलाइन को पार कर जाते हैं।
मानक बहुविकल्पीय बेंचमार्क अनुवाद गुणवत्ता में अंतर को नहीं पकड़ पाते हैं, जिसे प्रवाह-संवेदी LLM-as-judge मूल्यांकन पुनः प्राप्त करते हैं।

यह रिलीज बहुभाषी पूर्व-प्रशिक्षण डेटा और मूल्यांकन पर नियंत्रित शोध का समर्थन करती है, वेब-स्केल कॉर्पस के अंग्रेजी में केंद्रित होने की समस्या को दूर करती है।