MultiSynt/MT merilis korpus paralel 4,8T token di 36 bahasa

Para peneliti memperkenalkan MultiSynt/MT, sebuah korpus paralel sintetis terbuka yang berisi sekitar 4,8 triliun token bahasa target di 36 bahasa Eropa. Dataset ini dihasilkan dengan menerjemahkan 100 miliar token Nemotron-CC berkualitas tinggi menggunakan sistem Tower+ dan OPUS-MT/HPLT-MT.

MultiSynt/MT menyediakan sumber daya pra-pelatihan terbesar yang tersedia secara terbuka untuk banyak bahasa Eropa dengan sumber daya menengah dan rendah.
LLM yang dilatih pada korpus ini mencapai skor yang sebanding dengan garis dasar data asli (HPLT 2.0) dengan menggunakan sekitar 72% lebih sedikit token pra-pelatihan.
Pada anggaran pelatihan 100 miliar token yang setara, model mengungguli garis dasar secara relatif sekitar 15%.
Benchmark pilihan ganda standar gagal menangkap perbedaan kualitas terjemahan yang dapat dipulihkan oleh evaluasi LLM-as-judge yang sensitif terhadap kelancaran.

Rilis ini mendukung penelitian terkontrol mengenai data dan evaluasi pra-pelatihan multibahasa, mengatasi konsentrasi korpus skala web dalam bahasa Inggris.