음운론 기반 평가 프레임워크가 다국어 TTS 충실도 감사

저자들은 인간의 발화를 벤치마크로 사용하여 언어별 음운론적 패턴에 대해 다국어 텍스트-음성 변환(TTS) 시스템을 감사하기 위한 분류기 기반 프레임워크를 제안합니다. 이 접근 방식은 단어를 구분하는 데 필수적인 소리 대립의 보존을 테스트하지 못하는 MOS와 같은 표준 지표의 한계를 해결합니다.

프레임워크는 Meta의 MMS TTS 모델을 사용하여 아삼어 전설근(ATR) 모음 조화에서 테스트되었습니다.
인간 발화로 훈련된 분류기는 최소한의 손실로 합성 음성으로 이전되었습니다.
감사는 [+ATR] 중모음이 토큰의 3분의 1에서 [-ATR]로 실현되는 편향을 드러냈으며, 이는 인간 발화에는 없는 편향입니다.
단어 수준에서 예측된 ATR 레이블은 전사 레이블보다 조화를 더 정확하게 분류하여 의도된 음운론과 생성된 음운론 간의 격차를 강조했습니다.

이 프레임워크는 TTS 품질에 대한 작업 특화 진단을 제공하며 측정 가능한 음향 단서가 있는 다른 음운론적 대립으로 일반화됩니다.