NAVER LABS Europe, IWSLT 2026 지시 추종 음성 트랙에서 공동 1위

NAVER LABS Europe는 IWSLT 2026의 지시 추종 음성 처리 쇼트 트랙에 시스템을 제출하여 전체 랭킹에서 공동 1위를 달성했습니다. 팀은 영어 음성을 중국어, 이탈리아어, 독일어로 변환하는 ASR, ST, SQA를 동시에 수행할 수 있는 시스템을 개발했습니다.

이전 음성 프로젝터를 SpeechMapper로 대체하여 ASR 데이터만으로 음성에서 LLM 임베딩 프로젝터를 학습합니다.
fakACL을 도입했습니다. 이는 LLM 백본 프롬프팅과 SeamlessM4T-large-v2를 사용한 음성 합성으로 구축된 인공적으로 생성된 과학 발표로 구성된 합성 SQA 데이터셋입니다.
개선된 음성 투영과 도메인 특화 합성 데이터의 조합으로 인해 모델은 작년에 최고의 시스템보다 우수한 성능을 발휘하면서도 더 컴팩트하고 약한 LLM 백본에 의존합니다.

저자들은 이를 중요하게 생각하는데, 그 이유는 업데이트된 다단계 학습 파이프라인이 이전 최첨단 시스템과 비교하여 리소스 요구 사항을 줄이면서 우수한 성능을 가능하게 하기 때문입니다.