NAVER LABS Europe는 IWSLT 2026의 지시 추종 음성 처리 쇼트 트랙에 시스템을 제출하여 전체 랭킹에서 공동 1위를 달성했습니다. 팀은 영어 음성을 중국어, 이탈리아어, 독일어로 변환하는 ASR, ST, SQA를 동시에 수행할 수 있는 시스템을 개발했습니다.

  • 이전 음성 프로젝터를 SpeechMapper로 대체하여 ASR 데이터만으로 음성에서 LLM 임베딩 프로젝터를 학습합니다.
  • fakACL을 도입했습니다. 이는 LLM 백본 프롬프팅과 SeamlessM4T-large-v2를 사용한 음성 합성으로 구축된 인공적으로 생성된 과학 발표로 구성된 합성 SQA 데이터셋입니다.
  • 개선된 음성 투영과 도메인 특화 합성 데이터의 조합으로 인해 모델은 작년에 최고의 시스템보다 우수한 성능을 발휘하면서도 더 컴팩트하고 약한 LLM 백본에 의존합니다.

저자들은 이를 중요하게 생각하는데, 그 이유는 업데이트된 다단계 학습 파이프라인이 이전 최첨단 시스템과 비교하여 리소스 요구 사항을 줄이면서 우수한 성능을 가능하게 하기 때문입니다.