NAVER LABS Europe представила систему для короткого трека обработки речи с инструкциями на IWSLT 2026, разделив первое место в общем рейтинге. Команда разработала системы, способные совместно выполнять ASR, ST и SQA из английской речи на китайский, итальянский и немецкий языки.

  • Заменяет предыдущий проектор речи на SpeechMapper, который обучает проектор преобразования речи в эмбеддинги LLM, используя только данные ASR.
  • Представляет fakACL, синтетический набор данных SQA, состоящий из искусственно сгенерированных научных презентаций, созданных путем запроса к базовой модели LLM и синтеза речи с помощью SeamlessM4T-large-v2.
  • Комбинация улучшенной проекции речи и синтетических данных, специфичных для домена, позволяет модели превосходить лучшую систему прошлого года, оставаясь более компактной и используя более слабую базовую модель LLM.

Авторы считают это значимым, поскольку их обновленный многоэтапный конвейер обучения обеспечивает превосходные результаты при сниженных требованиях к ресурсам по сравнению с предыдущими системами уровня SOTA.