一项研究调查了上下文嵌入(CEs)能否预测从自发语音语料库中提取的7470个普通话单音节CV词的口语单词持续时间。结果表明,CEs在类型层面和单个词元层面均能显著预测持续时间,其预测能力高于随机水平。
- 预测的持续时间足够精确,可以将f0轮廓从归一化时间反向转换到毫秒尺度。
- 生成的预测轮廓近似于经验轮廓,并且优于置换基线模型。
这证实了CEs包含足够的信息来建模语音的时间方面,从而实现更准确的韵律合成。
一项研究调查了上下文嵌入(CEs)能否预测从自发语音语料库中提取的7470个普通话单音节CV词的口语单词持续时间。结果表明,CEs在类型层面和单个词元层面均能显著预测持续时间,其预测能力高于随机水平。
这证实了CEs包含足够的信息来建模语音的时间方面,从而实现更准确的韵律合成。