Les auteurs proposent un cadre basé sur un classifieur pour auditer les systèmes de synthèse vocale (TTS) multilingues par rapport aux motifs phonologiques spécifiques à chaque langue, en utilisant la parole humaine comme référence. Cette approche comble la limite des métriques standard telles que le MOS, qui ne testent pas la préservation des contrastes sonores essentiels pour distinguer les mots.

  • Le cadre a été testé sur l'harmonie vocalique de la racine linguale antérieure (ATR) en assamais avec le modèle TTS MMS de Meta.
  • Un classifieur entraîné sur la parole humaine s'est transféré vers la parole synthétisée avec une perte minimale.
  • L'audit a révélé que les voyelles médiales [+ATR] étaient réalisées comme [-ATR] dans un tiers des tokens, un biais absent dans la parole humaine.
  • Au niveau du mot, les étiquettes ATR prédites classaient l'harmonie plus précisément que les étiquettes de transcription, mettant en évidence un écart entre la phonologie intentée et produite.

Le cadre fournit des diagnostics spécifiques à la tâche pour la qualité TTS et se généralise à d'autres contrastes phonologiques disposant de indices acoustiques mesurables.