NAVER LABS Europe a soumis un système au court parcours de traitement vocal suivant les instructions à IWSLT 2026, atteignant une égalité pour la première place du classement général. L'équipe a développé des systèmes capables d'effectuer conjointement la SRV, la MT et la SQA à partir de la parole anglaise vers le chinois, l'italien et l'allemand.

  • Remplace le projecteur vocal précédent par SpeechMapper, qui apprend un projecteur d'embedding de parole vers LLM en utilisant uniquement des données SRV.
  • Introduit fakACL, un jeu de données SQA synthétique composé de présentations scientifiques artificiellement générées construites en invitant un backbone LLM et en synthétisant la parole avec SeamlessM4T-large-v2.
  • La combinaison d'une projection vocale améliorée et de données synthétiques spécifiques au domaine permet au modèle de surpasser le meilleur système de l'année dernière tout en étant plus compact et en s'appuyant sur un backbone LLM plus faible.

Les auteurs considèrent cela comme significatif car leur pipeline d'entraînement multi-étapes mis à jour permet des performances supérieures avec des exigences en ressources réduites par rapport aux systèmes de pointe précédents.