FBK: Long-form SpeechLLMs для IWSLT 2026 Instruction Following

В данной статье описывается подача FBK на общую задачу IWSLT 2026 Instruction Following, представляющая SpeechLLMs, разработанные как для коротких, так и для длинных форм следования инструкциям в условиях ограниченных ресурсов.

Модель достигла показателя SIFS 2.0708 на бенчмарке MCIF в коротком треке.
Для длинного трека были исследованы три метода сегментации речи для решения проблемы нестабильной генерации.
Введена новая метрика HIFS для более надежной оценки производительности на длинных формах.
Фиксированная сегментация длительностью 30 секунд обеспечила наивысший показатель HIFS, равный 2.0663.
Галлюцинации в длинных выводах преимущественно проявляются как повторяющиеся вставки, влияющие на задачи ASR и SSUM.

Исследование демонстрирует, что хотя расширение до длинной формы создает специфические проблемы с галлюцинациями, способности модели к коротким формам в значительной степени сохраняются.