SpeechCombine: model bahasa ucapan yang mengikuti instruksi tanpa penyetelan instruksi

Peneliti mengusulkan SpeechCombine, sebuah model bahasa ucapan yang mengikuti instruksi yang dilatih tanpa penyetelan instruksi dengan menggabungkan selisih bobot LLM teks dengan bobot yang diadaptasi untuk ucapan.

Metode ini hanya menggunakan satu putaran pra-pelatihan ucapan pada data 30k jam.
Dimulai dari model dasar LLM teks dan melakukan pra-pelatihan berkelanjutan pada ucapan.
Pendekatan ini secara langsung menggabungkan bobot yang diadaptasi untuk ucapan dengan selisih antara versi LLM teks yang telah disetel instruksi dan versi dasar LLM teks.
Hasil menunjukkan bahwa strategi ini mempertahankan pengetahuan LLM teks asli sambil secara efektif mentransfer kemampuan ke domain ucapan.

Temuan ini menyarankan arah baru untuk pelatihan SLM yang menghindari ketergantungan pada data ucapan dalam jumlah besar.