В данной статье описывается подача FBK на общую задачу IWSLT 2026 Instruction Following, представляющая SpeechLLMs, разработанные как для коротких, так и для длинных форм следования инструкциям в условиях ограниченных ресурсов.
- Модель достигла показателя SIFS 2.0708 на бенчмарке MCIF в коротком треке.
- Для длинного трека были исследованы три метода сегментации речи для решения проблемы нестабильной генерации.
- Введена новая метрика HIFS для более надежной оценки производительности на длинных формах.
- Фиксированная сегментация длительностью 30 секунд обеспечила наивысший показатель HIFS, равный 2.0663.
- Галлюцинации в длинных выводах преимущественно проявляются как повторяющиеся вставки, влияющие на задачи ASR и SSUM.
Исследование демонстрирует, что хотя расширение до длинной формы создает специфические проблемы с галлюцинациями, способности модели к коротким формам в значительной степени сохраняются.