arxiv arXiv cs.CL · 2 小时前 · 来源： 2 天前 · research

基于音系学的评估框架审查多语言TTS的忠实度

译自 English → 中文

作者提出了一种基于分类器的框架，用于以人类语音为基准，审查多语言文本转语音（TTS）系统是否符合特定语言的音系模式。这种方法解决了如MOS等标准指标的局限性，这些指标无法测试对区分单词至关重要的声音对比的保留。

该框架在阿萨姆语的先进舌根元音和谐（ATR）上进行了测试，使用的是Meta的MMS TTS模型。
在人类语音上训练的分类器以最小的损失迁移到了合成语音。
审查显示，[+ATR]中元音在三分之一的词元中被实现为[-ATR]，而这种现象在人类语音中并不存在。
在单词层面，预测的ATR标签比转录标签更准确地分类了和谐性，突显了预期音系与实际产生音系之间的差距。

该框架为TTS质量提供了任务特定的诊断，并可推广到其他具有可测量声学线索的其他音系对比。

重要性 1/3 具有差异化优势的新评测框架 arXiv cs.CL Evaluation & benchmarks Voice & audio