Para peneliti memperkenalkan MultiSynt/MT, sebuah korpus paralel sintetis terbuka yang berisi sekitar 4,8 triliun token bahasa target di 36 bahasa Eropa. Dataset ini dihasilkan dengan menerjemahkan 100 miliar token Nemotron-CC berkualitas tinggi menggunakan sistem Tower+ dan OPUS-MT/HPLT-MT.

  • MultiSynt/MT menyediakan sumber daya pra-pelatihan terbesar yang tersedia secara terbuka untuk banyak bahasa Eropa dengan sumber daya menengah dan rendah.
  • LLM yang dilatih pada korpus ini mencapai skor yang sebanding dengan garis dasar data asli (HPLT 2.0) dengan menggunakan sekitar 72% lebih sedikit token pra-pelatihan.
  • Pada anggaran pelatihan 100 miliar token yang setara, model mengungguli garis dasar secara relatif sekitar 15%.
  • Benchmark pilihan ganda standar gagal menangkap perbedaan kualitas terjemahan yang dapat dipulihkan oleh evaluasi LLM-as-judge yang sensitif terhadap kelancaran.

Rilis ini mendukung penelitian terkontrol mengenai data dan evaluasi pra-pelatihan multibahasa, mengatasi konsentrasi korpus skala web dalam bahasa Inggris.