Embedding kontekstual memprediksi durasi dan nada kata Mandarin

Sebuah penelitian menyelidiki apakah embedding kontekstual (CEs) dapat memprediksi durasi kata yang diucapkan untuk 7470 token kata CV monosilabis Mandarin yang diekstrak dari korpus ucapan spontan. Hasilnya menunjukkan bahwa CEs prediktif untuk durasi di atas tingkat kebetulan, baik pada level tipe maupun untuk token individu.

Durasi yang diprediksi cukup presisi untuk mentransformasi balik kontur f0 dari waktu ternormalisasi ke skala milidetik.
Kontur prediksi yang dihasilkan mendekati kontur empiris dan mengungguli baseline permutasi.

Ini mengonfirmasi bahwa CEs mengandung informasi yang cukup untuk memodelkan aspek temporal ucapan, memungkinkan sintesis prosodi yang lebih akurat.