NAVER LABS Europe presenta un sistema en la pista corta de procesamiento de voz con seguimiento de instrucciones en IWSLT 2026, logrando una empate por el primer lugar en la clasificación general. El equipo desarrolló sistemas capaces de realizar conjuntamente ASR, ST y SQA desde voz en inglés a chino, italiano y alemán.
- Reemplaza el proyector de voz anterior con SpeechMapper, que aprende un proyector de incrustación de voz a LLM utilizando únicamente datos de ASR.
- Introduce fakACL, un conjunto de datos SQA sintético compuesto por presentaciones científicas generadas artificialmente creadas mediante la solicitud a un backbone de LLM y la síntesis de voz con SeamlessM4T-large-v2.
- La combinación de una proyección de voz mejorada y datos sintéticos específicos del dominio permite que el modelo supere al mejor sistema del año anterior mientras es más compacto y depende de un backbone de LLM más débil.
Los autores consideran esto significativo porque su pipeline de entrenamiento multietapa actualizado permite un rendimiento superior con requisitos de recursos reducidos en comparación con los sistemas SOTA anteriores.