Los autores proponen un marco basado en clasificadores para auditar sistemas de texto a voz (TTS) multilingües frente a patrones fonológicos específicos del idioma, utilizando el habla humana como referencia. Este enfoque aborda la limitación de las métricas estándar como MOS, que no logran probar la preservación de contrastes sonoros esenciales para distinguir palabras.

  • El marco se probó en la armonía vocálica ATR (raíz lingual avanzada) del idioma asamés utilizando el modelo TTS MMS de Meta.
  • Un clasificador entrenado con habla humana se transfirió al habla sintetizada con pérdida mínima.
  • La auditoría reveló que las vocales medias [+ATR] se realizaron como [-ATR] en un tercio de los tokens, un sesgo ausente en el habla humana.
  • A nivel de palabra, las etiquetas ATR predichas clasificaron la armonía con mayor precisión que las etiquetas de transcripción, destacando una brecha entre la fonología intencionada y la producida.

El marco proporciona diagnósticos específicos para la calidad del TTS y se generaliza a otros contrastes fonológicos que tienen indicadores acústicos medibles.