В данной статье описывается подача FBK на общую задачу IWSLT 2026 Instruction Following, представляющая SpeechLLMs, разработанные как для коротких, так и для длинных форм следования инструкциям в условиях ограниченных ресурсов.

  • Модель достигла показателя SIFS 2.0708 на бенчмарке MCIF в коротком треке.
  • Для длинного трека были исследованы три метода сегментации речи для решения проблемы нестабильной генерации.
  • Введена новая метрика HIFS для более надежной оценки производительности на длинных формах.
  • Фиксированная сегментация длительностью 30 секунд обеспечила наивысший показатель HIFS, равный 2.0663.
  • Галлюцинации в длинных выводах преимущественно проявляются как повторяющиеся вставки, влияющие на задачи ASR и SSUM.

Исследование демонстрирует, что хотя расширение до длинной формы создает специфические проблемы с галлюцинациями, способности модели к коротким формам в значительной степени сохраняются.