Les chercheurs présentent MultiSynt/MT, un corpus parallèle synthétique ouvert contenant environ 4,8 billions de tokens de langue cible sur 36 langues européennes. Le jeu de données est généré en traduisant 100 milliards de tokens Nemotron-CC de haute qualité à l'aide des systèmes Tower+ et OPUS-MT/HPLT-MT.

  • MultiSynt/MT fournit la ressource d'apprentissage préalable la plus importante disponible ouvertement pour de nombreuses langues européennes de ressources moyennes et faibles.
  • Les LLM entraînés sur ce corpus atteignent des scores comparables aux lignes de base de données natives (HPLT 2.0) en utilisant environ 72 % de tokens d'apprentissage préalable en moins.
  • À un budget d'entraînement de 100 milliards de tokens équivalent, les modèles surpassent la ligne de base d'environ 15 % relativement.
  • Les benchmarks standard à choix multiples échouent à capturer les différences de qualité de traduction que les évaluations LLM-as-judge sensibles à la fluidité récupèrent.

La publication soutient la recherche contrôlée sur les données et l'évaluation d'apprentissage préalable multilingues, en s'attaquant à la concentration des corpus à l'échelle du web en anglais.