著者らは、人間の発話をベンチマークとして用い、言語固有の音韻パターンに対して多言語音声合成(TTS)システムを監査するための分類器ベースのフレームワークを提案する。このアプローチは、単語を区別するために不可欠な音の対立の保持をテストできないMOSなどの標準的な指標の限界に対処する。

  • フレームワークは、MetaのMMS TTSモデルを用いてアッサム語の前舌根(ATR)母調和でテストされた。
  • 人間の発話で訓練された分類器は、最小限の損失で合成音声に移行した。
  • 監査の結果、[+ATR]中母音がトークンの3分の1で[-ATR]として実現されることが示され、これは人間の発話には見られないバイアスである。
  • 単語レベルでは、予測されたATRラベルは転写ラベルよりも調和をより正確に分類し、意図された音韻と生成された音韻の間のギャップを浮き彫りにした。

このフレームワークはTTS品質に対するタスク固有の診断を提供し、測定可能な音響的証拠を持つ他の音韻対立にも一般化できる。