फोनोलॉजी-इनफॉर्म्ड इवैलुएशन फ्रेमवर्क बहुभाषी TTS की विश्वसनीयता की जांच करता है

लेखकों ने एक क्लासिफायर-आधारित फ्रेमवर्क का प्रस्ताव किया है जो मानव speech को बेचमार्क के रूप में उपयोग करते हुए बहुभाषी टेक्स्ट-टू-स्पीच (TTS) सिस्टम्स की जांच करता है। यह दृष्टिकोण MOS जैसी सामान्य मेट्रिक्स की सीमा को संबोधित करता है, जो शब्दों को अलग करने के लिए आवश्यक ध्वनि विरोधों के संरक्षण का परीक्षण करने में असफल रहते हैं।

फ्रेमवर्क को मेटा के MMS TTS मॉडल का उपयोग करते हुए असामी भाषा की उन्नत टंग रूट (ATR) व्हेयर हार्मनी पर टेस्ट किया गया था।
मानव speech पर प्रशिक्षित एक क्लासिफायर न्यूनतम क्षति के साथ संयुक्त speech में स्थानांतरित हुआ।
जांच ने दिखाया कि [+ATR] मध्य व्हेयर को टोकन के एक तिहाई हिस्से में [-ATR] के रूप में रियलाइज किया गया था, जो मानव speech में अनुपस्थित था।
शब्द स्तर पर, पूर्वानुमित ATR लेबल्स ने हार्मनी को अधिक सटीकता से वर्गीकृत किया, जिससे इरादे और उत्पादित फोनोलॉजी के बीच अंतर उजागर हुआ।

फ्रेमवर्क TTS गुणवत्ता के लिए कार्य-विशिष्ट निदान प्रदान करता है और अन्य फोनोलॉजिकल विरोधों पर भी लागू होता है जिनके मापने योग्य ध्वनि संकेत हैं।