ある研究は、文脈化埋め込み(CEs)が自発的スピーチコーパスから抽出した7470個の中国語単音節CV単語の spoken word duration を予測できるかどうかを調査している。結果は、CEsがタイプレベルおよび個別トークンレベルの両方で、偶然率を上回る持続時間の予測に有効であることを示している。
- 予測された持続時間は、正規化された時間からミリ秒スケールへf0コンターを後方変換するのに十分な精度を持っている。
- 得られた予測コンターは実測コンターに近似し、パーミュテーションベースラインを上回る性能を示す。
これにより、CEsがスピーチの時間的側面をモデル化するために十分な情報を含んでおり、韻律のより正確な合成を可能であることが確認された。