Este artículo detalla la presentación de FBK a la tarea compartida de seguimiento de instrucciones de IWSLT 2026, presentando SpeechLLMs diseñados tanto para el seguimiento de instrucciones de voz en formatos cortos como largos bajo configuraciones restringidas.

  • El modelo obtuvo una puntuación SIFS de 2.0708 en el benchmark MCIF en la pista corta.
  • Se exploraron tres métodos de segmentación de voz para la pista larga con el fin de abordar la generación inestable.
  • Se introdujo una nueva puntuación HIFS para evaluar el rendimiento en formatos largos de manera más robusta.
  • La segmentación fija de 30 segundos obtuvo la puntuación HIFS más alta de 2.0663.
  • Las alucinaciones en las salidas de formato largo se manifiestan principalmente como inserciones repetitivas, afectando a las tareas ASR y SSUM.

El estudio demuestra que, aunque la extensión a formato largo introduce desafíos específicos de alucinación, las capacidades del modelo en formato corto se mantienen en gran medida.