MultiSynt/MT lança corpus paralelo de 4.8T tokens em 36 idiomas

Pesquisadores introduzem o MultiSynt/MT, um corpus paralelo sintético aberto contendo aproximadamente 4.8 trilhões de tokens do idioma alvo em 36 idiomas europeus. O conjunto de dados é gerado traduzindo 100 bilhões de tokens de alta qualidade do Nemotron-CC usando os sistemas Tower+ e OPUS-MT/HPLT-MT.

MultiSynt/MT fornece o recurso de pré-treinamento mais amplo disponível abertamente para muitos idiomas europeus de recursos médios e baixos.
LLMs treinados neste corpus alcançam pontuações comparáveis às linhas de base de dados nativos (HPLT 2.0) usando aproximadamente 72% menos tokens de pré-treinamento.
Com um orçamento de treinamento correspondente de 100B tokens, os modelos superam a linha de base em aproximadamente 15% relativo.
Benchmarks padrão de múltipla escolha falham em capturar diferenças na qualidade de tradução que avaliações LLM-as-judge sensíveis à fluidez recuperam.

O lançamento apoia a pesquisa controlada sobre dados e avaliação de pré-treinamento multilingue, abordando a concentração de corpora em escala web em inglês.