Os autores propõem um framework baseado em classificador para auditar sistemas de texto-para-fala (TTS) multilíngues contra padrões fonológicos específicos do idioma, usando fala humana como benchmark. Esta abordagem aborda a limitação de métricas padrão como MOS, que falham ao testar a preservação de contrastes sonoros essenciais para distinguir palavras.

  • O framework foi testado na harmonia vocálica ATR (raiz da língua avançada) do assamês usando o modelo TTS MMS da Meta.
  • Um classificador treinado em fala humana transferiu-se para a fala sintetizada com perda mínima.
  • A auditoria revelou que as vogais médias [+ATR] foram realizadas como [-ATR] em um terço dos tokens, um viés ausente na fala humana.
  • No nível da palavra, os rótulos ATR previstos classificaram a harmonia com mais precisão do que os rótulos de transcrição, destacando uma lacuna entre a fonologia pretendida e a produzida.

O framework fornece diagnósticos específicos para a qualidade do TTS e generaliza-se para outros contrastes fonológicos que possuem pistas acústicas mensuráveis.