研究者らは、36のヨーロッパ言語において約4.8兆語のターゲット言語トークンを含むオープンな合成並列コーパスである MultiSynt/MT を発表した。このデータセットは、Tower+ および OPUS-MT/HPLT-MT システムを用いて1000億の高品質な Nemotron-CC トークンを翻訳することで生成された。

  • MultiSynt/MT は、多くの中間リソースおよび低リソースのヨーロッパ言語にとって、公開されている中で最大の事前学習用リソースを提供する。
  • このコーパスで学習した大規模言語モデル(LLM)は、事前学習トークンを約72%削減しながらも、ネイティブデータベースライン(HPLT 2.0)と同等のスコアを達成している。
  • トークン数1000億という一致した学習予算において、モデルはベースラインに対して約15%相対的に優れている。
  • 標準的な多肢選択式ベンチマークでは捉えきれない翻訳品質の違いを、流暢性に敏感な LLM-as-judge 評価が検出している。

今回のリリースは、英語に偏在するウェブスケールのコーパスという課題に対処し、多言語事前学習データおよび評価に関する制御された研究をサポートする。