يقترح المؤلفون إطارًا قائمًا على المُصنِّف لفحص أنظمة تحويل النص إلى كلام (TTS) متعددة اللغات مقابل الأنماط الفونولوجية الخاصة بكل لغة، باستخدام الكلام البشري كمعيار مرجعي. يعالج هذا النهج قصور المقاييس القياسية مثل MOS، التي تفشل في اختبار الحفاظ على التباينات الصوتية الأساسية لتمييز الكلمات.

  • تم اختبار الإطار على الانسجام الصائتي لجذر اللسان الأمامي (ATR) في اللغة الآسامية باستخدام نموذج MMS TTS من Meta.
  • انتقل مُصنِّف مدرب على الكلام البشري إلى الكلام الاصطناعي بأقل قدر من الفقدان.
  • كشف الفحص أن الأصوات المتوسطة [+ATR] تُنفَّذ كـ [-ATR] في ثلث الرموز، وهو تحيز غائب في الكلام البشري.
  • على مستوى الكلمة، صنّف التسميات المتوقعة لـ ATR الانسجام بدقة أكبر من تسميات النسخ، مما يسلط الضوء على فجوة بين الفونولوجيا المقصودة والمُنتَجة.

يوفر الإطار تشخيصات خاصة بالمهمة لجودة TTS ويعمم على التباينات الفونولوجية الأخرى التي لها مؤشرات صوتية قابلة للقياس.