MultiSynt/MT lanza un corpus paralelo de 4.8T tokens en 36 idiomas

Los investigadores presentan MultiSynt/MT, un corpus paralelo sintético abierto que contiene aproximadamente 4.8 billones de tokens del idioma objetivo en 36 idiomas europeos. El conjunto de datos se genera traduciendo 100 mil millones de tokens de alta calidad de Nemotron-CC utilizando los sistemas Tower+ y OPUS-MT/HPLT-MT.

MultiSynt/MT proporciona el recurso de preentrenamiento más grande disponible abiertamente para muchos idiomas europeos de recursos medios e inferiores.
Los LLM entrenados en este corpus logran puntuaciones comparables a las líneas base de datos nativos (HPLT 2.0) utilizando aproximadamente un 72% menos de tokens de preentrenamiento.
Con un presupuesto de entrenamiento coincidente de 100B tokens, los modelos superan a la línea base en aproximadamente un 15% relativo.
Los benchmarks estándar de opción múltiple no logran capturar las diferencias en la calidad de traducción que las evaluaciones LLM-as-judge sensibles a la fluidez recuperan.

El lanzamiento apoya la investigación controlada sobre datos y evaluación de preentrenamiento multilingüe, abordando la concentración de corpora a escala web en inglés.