arxiv arXiv cs.CL · 2 小时前 · 来源： 4 天前 · research

MultiSynt/MT 发布涵盖36种语言的4.8T token并行语料库

译自 English → 中文

研究人员推出了 MultiSynt/MT，这是一个开放的合成平行语料库，包含约4.8万亿个目标语言token，覆盖36种欧洲语言。该数据集通过使用 Tower+ 和 OPUS-MT/HPLT-MT 系统翻译1000亿个高质量的 Nemotron-CC token 生成。

MultiSynt/MT 为许多中等资源和低资源的欧洲语言提供了最大的公开可用预训练资源。
在该语料库上训练的 LLM 使用约少72%的预训练token，即可取得与原生数据基线（HPLT 2.0）相当的成绩。
在100B token的匹配训练预算下，模型相对基线性能提升了约15%。
标准多项选择基准测试无法捕捉翻译质量的差异，而流畅度敏感的 LLM-as-judge 评估可以恢复这些差异。

此次发布支持对多语言预训练数据和评估的控制性研究，解决了网络规模语料库集中在英语的问题。

重要性 2/3 arXiv cs.CL NVIDIA Open weights Training data