文脈化埋め込みが中国語の単語持続時間とピッチを予測

ある研究は、文脈化埋め込み（CEs）が自発的スピーチコーパスから抽出した7470個の中国語単音節CV単語の spoken word duration を予測できるかどうかを調査している。結果は、CEsがタイプレベルおよび個別トークンレベルの両方で、偶然率を上回る持続時間の予測に有効であることを示している。

予測された持続時間は、正規化された時間からミリ秒スケールへf0コンターを後方変換するのに十分な精度を持っている。
得られた予測コンターは実測コンターに近似し、パーミュテーションベースラインを上回る性能を示す。

これにより、CEsがスピーチの時間的側面をモデル化するために十分な情報を含んでおり、韻律のより正確な合成を可能であることが確認された。