NAVER LABS Europe 向 IWSLT 2026 的指令跟随语音处理短赛道提交了一个系统,在总排名中并列第一。团队开发了能够联合执行从英语语音到中文、意大利语和德语的 ASR、ST 和 SQA 的系统。
- 用 SpeechMapper 替换了之前的语音投影器,该投影器仅使用 ASR 数据学习从语音到 LLM 的嵌入投影。
- 引入了 fakACL,这是一个合成的 SQA 数据集,由通过提示 LLM backbone 并使用 SeamlessM4T-large-v2 合成语音而生成的虚拟科学演示组成。
- 改进的语音投影与领域特定合成数据的结合使模型能够超越去年的最佳系统,同时更加紧凑并依赖于较弱的 LLM backbone。
作者认为这很重要,因为他们的更新后的多阶段训练流水线在相比之前的 SOTA 系统降低资源需求的同时实现了更优越的性能。