MultiSynt/MT выпускает параллельный корпус из 4,8 трлн токенов на 36 языках

Исследователи представляют MultiSynt/MT, открытый синтетический параллельный корпус, содержащий примерно 4,8 триллиона токенов целевого языка на 36 европейских языках. Набор данных получен путем перевода 100 миллиардов высококачественных токенов Nemotron-CC с использованием систем Tower+ и OPUS-MT/HPLT-MT.

MultiSynt/MT предоставляет самый крупный из открытых ресурсов для предобучения многих средне- и низко ресурсоемких европейских языков.

LLM, обученные на этом корпусе, достигают результатов, сопоставимых с базовыми показателями на нативных данных (HPLT 2.0), используя примерно на 72% меньше токенов для предобучения.

При совпадающем бюджете обучения в 100B токенов модели превосходят базовый уровень примерно на 15% относительно.

Стандартные бенчмарки с множественным выбором не способны уловить различия в качестве перевода, которые выявляют оценки LLM-as-judge, чувствительные к беглости.

Выпуск поддерживает контролируемые исследования данных для многоязычного предобучения и их оценки, решая проблему концентрации веб-корпусов на английском языке.