MultiSynt/MT が36言語にわたる4.8Tトークンの並列コーパスをリリース

研究者らは、36のヨーロッパ言語において約4.8兆語のターゲット言語トークンを含むオープンな合成並列コーパスである MultiSynt/MT を発表した。このデータセットは、Tower+ および OPUS-MT/HPLT-MT システムを用いて1000億の高品質な Nemotron-CC トークンを翻訳することで生成された。

MultiSynt/MT は、多くの中間リソースおよび低リソースのヨーロッパ言語にとって、公開されている中で最大の事前学習用リソースを提供する。
このコーパスで学習した大規模言語モデル（LLM）は、事前学習トークンを約72%削減しながらも、ネイティブデータベースライン（HPLT 2.0）と同等のスコアを達成している。
トークン数1000億という一致した学習予算において、モデルはベースラインに対して約15%相対的に優れている。
標準的な多肢選択式ベンチマークでは捉えきれない翻訳品質の違いを、流暢性に敏感な LLM-as-judge 評価が検出している。

今回のリリースは、英語に偏在するウェブスケールのコーパスという課題に対処し、多言語事前学習データおよび評価に関する制御された研究をサポートする。