Исследователи представляют MultiSynt/MT, открытый синтетический параллельный корпус, содержащий примерно 4,8 триллиона токенов целевого языка на 36 европейских языках. Набор данных получен путем перевода 100 миллиардов высококачественных токенов Nemotron-CC с использованием систем Tower+ и OPUS-MT/HPLT-MT.
- MultiSynt/MT предоставляет самый крупный из открытых ресурсов для предобучения многих средне- и низко ресурсоемких европейских языков.
- LLM, обученные на этом корпусе, достигают результатов, сопоставимых с базовыми показателями на нативных данных (HPLT 2.0), используя примерно на 72% меньше токенов для предобучения.
- При совпадающем бюджете обучения в 100B токенов модели превосходят базовый уровень примерно на 15% относительно.
- Стандартные бенчмарки с множественным выбором не способны уловить различия в качестве перевода, которые выявляют оценки LLM-as-judge, чувствительные к беглости.
Выпуск поддерживает контролируемые исследования данных для многоязычного предобучения и их оценки, решая проблему концентрации веб-корпусов на английском языке.