लेखकों ने एक क्लासिफायर-आधारित फ्रेमवर्क का प्रस्ताव किया है जो मानव speech को बेचमार्क के रूप में उपयोग करते हुए बहुभाषी टेक्स्ट-टू-स्पीच (TTS) सिस्टम्स की जांच करता है। यह दृष्टिकोण MOS जैसी सामान्य मेट्रिक्स की सीमा को संबोधित करता है, जो शब्दों को अलग करने के लिए आवश्यक ध्वनि विरोधों के संरक्षण का परीक्षण करने में असफल रहते हैं।

  • फ्रेमवर्क को मेटा के MMS TTS मॉडल का उपयोग करते हुए असामी भाषा की उन्नत टंग रूट (ATR) व्हेयर हार्मनी पर टेस्ट किया गया था।
  • मानव speech पर प्रशिक्षित एक क्लासिफायर न्यूनतम क्षति के साथ संयुक्त speech में स्थानांतरित हुआ।
  • जांच ने दिखाया कि [+ATR] मध्य व्हेयर को टोकन के एक तिहाई हिस्से में [-ATR] के रूप में रियलाइज किया गया था, जो मानव speech में अनुपस्थित था।
  • शब्द स्तर पर, पूर्वानुमित ATR लेबल्स ने हार्मनी को अधिक सटीकता से वर्गीकृत किया, जिससे इरादे और उत्पादित फोनोलॉजी के बीच अंतर उजागर हुआ।

फ्रेमवर्क TTS गुणवत्ता के लिए कार्य-विशिष्ट निदान प्रदान करता है और अन्य फोनोलॉजिकल विरोधों पर भी लागू होता है जिनके मापने योग्य ध्वनि संकेत हैं।