Os autores propõem um framework baseado em classificador para auditar sistemas de texto-para-fala (TTS) multilíngues contra padrões fonológicos específicos do idioma, usando fala humana como benchmark. Esta abordagem aborda a limitação de métricas padrão como MOS, que falham ao testar a preservação de contrastes sonoros essenciais para distinguir palavras.
- O framework foi testado na harmonia vocálica ATR (raiz da língua avançada) do assamês usando o modelo TTS MMS da Meta.
- Um classificador treinado em fala humana transferiu-se para a fala sintetizada com perda mínima.
- A auditoria revelou que as vogais médias [+ATR] foram realizadas como [-ATR] em um terço dos tokens, um viés ausente na fala humana.
- No nível da palavra, os rótulos ATR previstos classificaram a harmonia com mais precisão do que os rótulos de transcrição, destacando uma lacuna entre a fonologia pretendida e a produzida.
O framework fornece diagnósticos específicos para a qualidade do TTS e generaliza-se para outros contrastes fonológicos que possuem pistas acústicas mensuráveis.