NAVER LABS Europe mengirimkan sistem ke trek pendek pemrosesan ucapan penuntun instruksi di IWSLT 2026, meraih posisi seri pertama dalam peringkat keseluruhan. Tim mengembangkan sistem yang mampu melakukan ASR, ST, dan SQA secara bersamaan dari ucapan bahasa Inggris ke bahasa Mandarin, Italia, dan Jerman.
- Menggantikan proyektor ucapan sebelumnya dengan SpeechMapper, yang mempelajari proyektor embedding ucapan-ke-LLM hanya menggunakan data ASR.
- Memperkenalkan fakACL, dataset SQA sintetis yang terdiri dari presentasi ilmiah yang dihasilkan secara artifisial, dibangun dengan prompting backbone LLM dan mensintesis ucapan dengan SeamlessM4T-large-v2.
- Kombinasi proyeksi ucapan yang ditingkatkan dan data sintetis spesifik domain memungkinkan model melebihi sistem terbaik tahun lalu sambil menjadi lebih ringkas dan mengandalkan backbone LLM yang lebih lemah.
Para penulis menganggap ini signifikan karena pipeline pelatihan multi-tahap yang diperbarui memungkinkan kinerja superior dengan persyaratan sumber daya yang berkurang dibandingkan dengan sistem state-of-the-art sebelumnya.