Este artículo detalla la presentación de FBK a la tarea compartida de seguimiento de instrucciones de IWSLT 2026, presentando SpeechLLMs diseñados tanto para el seguimiento de instrucciones de voz en formatos cortos como largos bajo configuraciones restringidas.
- El modelo obtuvo una puntuación SIFS de 2.0708 en el benchmark MCIF en la pista corta.
- Se exploraron tres métodos de segmentación de voz para la pista larga con el fin de abordar la generación inestable.
- Se introdujo una nueva puntuación HIFS para evaluar el rendimiento en formatos largos de manera más robusta.
- La segmentación fija de 30 segundos obtuvo la puntuación HIFS más alta de 2.0663.
- Las alucinaciones en las salidas de formato largo se manifiestan principalmente como inserciones repetitivas, afectando a las tareas ASR y SSUM.
El estudio demuestra que, aunque la extensión a formato largo introduce desafíos específicos de alucinación, las capacidades del modelo en formato corto se mantienen en gran medida.