A NAVER LABS Europe submete um sistema à faixa curta de processamento de fala com instruções no IWSLT 2026, alcançando um empate em primeiro lugar na classificação geral. A equipe desenvolveu sistemas capazes de realizar conjuntamente ASR, ST e SQA a partir de fala em inglês para chinês, italiano e alemão.
- Substitui o projetor de fala anterior pelo SpeechMapper, que aprende um projetor de incorporação de fala para LLM usando apenas dados de ASR.
- Introduz o fakACL, um conjunto de dados SQA sintético composto por apresentações científicas geradas artificialmente construídas ao solicitar um backbone de LLM e sintetizar fala com SeamlessM4T-large-v2.
- A combinação de projeção de fala aprimorada e dados sintéticos específicos do domínio permite que o modelo supere o melhor sistema do ano anterior, sendo mais compacto e dependendo de um backbone de LLM mais fraco.
Os autores consideram isso significativo porque seu pipeline de treinamento multietapas atualizado permite desempenho superior com requisitos de recursos reduzidos em comparação com os sistemas SOTA anteriores.