NAVER LABS Europeは、IWSLT 2026の指示追従音声処理ショートトラックにシステムを提出し、総合ランキングで首位タイを果たした。チームは、英語の音声から中国語、イタリア語、ドイツ語へのASR、ST、SQAを同時に行うシステムを開発した。

  • 以前の音声プロジェクタをSpeechMapperに置き換え、ASRデータのみを使用して音声からLLMへの埋め込みプロジェクタを学習する。
  • fakACLを導入。これは、LLMバックボーンのプロンプティングとSeamlessM4T-large-v2による音声合成で構築された人工生成の科学プレゼンテーションで構成される合成SQAデータセットである。
  • 改善された音声投影とドメイン固有の合成データの組み合わせにより、モデルは昨年最高のシステムを上回りながら、よりコンパクトで、より弱いLLMバックボーンに依存している。

著者らはこれを重要視している。その理由は、更新されたマルチステージトレーニングパイプラインが、以前の最先端システムと比較してリソース要件を削減しながら優れたパフォーマンスを実現するからである。