MultiSynt/MT publie un corpus parallèle de 4,8T de tokens sur 36 langues

Les chercheurs présentent MultiSynt/MT, un corpus parallèle synthétique ouvert contenant environ 4,8 billions de tokens de langue cible sur 36 langues européennes. Le jeu de données est généré en traduisant 100 milliards de tokens Nemotron-CC de haute qualité à l'aide des systèmes Tower+ et OPUS-MT/HPLT-MT.

MultiSynt/MT fournit la ressource d'apprentissage préalable la plus importante disponible ouvertement pour de nombreuses langues européennes de ressources moyennes et faibles.
Les LLM entraînés sur ce corpus atteignent des scores comparables aux lignes de base de données natives (HPLT 2.0) en utilisant environ 72 % de tokens d'apprentissage préalable en moins.
À un budget d'entraînement de 100 milliards de tokens équivalent, les modèles surpassent la ligne de base d'environ 15 % relativement.
Les benchmarks standard à choix multiples échouent à capturer les différences de qualité de traduction que les évaluations LLM-as-judge sensibles à la fluidité récupèrent.

La publication soutient la recherche contrôlée sur les données et l'évaluation d'apprentissage préalable multilingues, en s'attaquant à la concentration des corpus à l'échelle du web en anglais.