SpeechLLMs de FBK para seguimiento de instrucciones en IWSLT 2026

Este artículo detalla la presentación de FBK a la tarea compartida de seguimiento de instrucciones de IWSLT 2026, presentando SpeechLLMs diseñados tanto para el seguimiento de instrucciones de voz en formatos cortos como largos bajo configuraciones restringidas.

El modelo obtuvo una puntuación SIFS de 2.0708 en el benchmark MCIF en la pista corta.
Se exploraron tres métodos de segmentación de voz para la pista larga con el fin de abordar la generación inestable.
Se introdujo una nueva puntuación HIFS para evaluar el rendimiento en formatos largos de manera más robusta.
La segmentación fija de 30 segundos obtuvo la puntuación HIFS más alta de 2.0663.
Las alucinaciones en las salidas de formato largo se manifiestan principalmente como inserciones repetitivas, afectando a las tareas ASR y SSUM.

El estudio demuestra que, aunque la extensión a formato largo introduce desafíos específicos de alucinación, las capacidades del modelo en formato corto se mantienen en gran medida.