MultiSynt/MT, 36개 언어에 걸친 4.8T 토큰 병렬 코퍼스 공개

연구자들은 36개 유럽 언어에 걸쳐 약 4.8조 개의 대상 언어 토큰을 포함하는 오픈 합성 병렬 코퍼스인 MultiSynt/MT를 소개했습니다. 이 데이터셋은 Tower+ 및 OPUS-MT/HPLT-MT 시스템을 사용하여 1000억 개의 고품질 Nemotron-CC 토큰을 번역하여 생성되었습니다.

MultiSynt/MT는 많은 중저자원 유럽 언어를 위해 공개적으로 이용 가능한 최대 규모의 사전 학습 자료를 제공합니다.
이 코퍼스로 학습된 LLM은 사전 학습 토큰을 약 72% 줄이면서 네이티브 데이터 기준선(HPLT 2.0)과 비교 가능한 점수를 달성합니다.
일치하는 1000억 토큰 학습 예산에서 모델은 기준선보다 약 15% 상대적으로 더 우수한 성능을 보입니다.
표준 다중 선택 벤치마크는 유창성에 민감한 LLM-as-judge 평가가 포착하는 번역 품질 차이를 잡아내지 못합니다.

이번 공개는 웹 규모 코퍼스가 영어에 집중되어 있다는 문제를 해결하며, 다국어 사전 학습 데이터 및 평가에 대한 통제된 연구를 지원합니다.