저자들은 인간의 발화를 벤치마크로 사용하여 언어별 음운론적 패턴에 대해 다국어 텍스트-음성 변환(TTS) 시스템을 감사하기 위한 분류기 기반 프레임워크를 제안합니다. 이 접근 방식은 단어를 구분하는 데 필수적인 소리 대립의 보존을 테스트하지 못하는 MOS와 같은 표준 지표의 한계를 해결합니다.

  • 프레임워크는 Meta의 MMS TTS 모델을 사용하여 아삼어 전설근(ATR) 모음 조화에서 테스트되었습니다.
  • 인간 발화로 훈련된 분류기는 최소한의 손실로 합성 음성으로 이전되었습니다.
  • 감사는 [+ATR] 중모음이 토큰의 3분의 1에서 [-ATR]로 실현되는 편향을 드러냈으며, 이는 인간 발화에는 없는 편향입니다.
  • 단어 수준에서 예측된 ATR 레이블은 전사 레이블보다 조화를 더 정확하게 분류하여 의도된 음운론과 생성된 음운론 간의 격차를 강조했습니다.

이 프레임워크는 TTS 품질에 대한 작업 특화 진단을 제공하며 측정 가능한 음향 단서가 있는 다른 음운론적 대립으로 일반화됩니다.