作者提出了一种基于分类器的框架,用于以人类语音为基准,审查多语言文本转语音(TTS)系统是否符合特定语言的音系模式。这种方法解决了如MOS等标准指标的局限性,这些指标无法测试对区分单词至关重要的声音对比的保留。
- 该框架在阿萨姆语的先进舌根元音和谐(ATR)上进行了测试,使用的是Meta的MMS TTS模型。
- 在人类语音上训练的分类器以最小的损失迁移到了合成语音。
- 审查显示,[+ATR]中元音在三分之一的词元中被实现为[-ATR],而这种现象在人类语音中并不存在。
- 在单词层面,预测的ATR标签比转录标签更准确地分类了和谐性,突显了预期音系与实际产生音系之间的差距。
该框架为TTS质量提供了任务特定的诊断,并可推广到其他具有可测量声学线索的其他音系对比。