लेखक HoLo-ToLk का परिचय देते हैं, जो टोकनाइज़र्स या सीखे गए इनपुट एम्बेडिंग्स के बिना शून्य-पैरामीटर HSL बाइट सबस्ट्रेट का उपयोग करके स्पीच-टू-टेक्स्ट (STT) और टेक्स्ट-टू-स्पीच (TTS) मॉडल बनाने वाला एक शोध परियोजना है। यह कार्य दिखाता है कि विशिष्ट आर्किटेक्चरल संशोधनों के साथ संयोजन में कच्चे HSL बाइट्स ऑडियो प्रोसेसिंग के लिए एक वैध सिग्नल के रूप में काम कर सकते हैं।
- STT प्रदर्शन जमी हुई सबस्ट्रेट पर एक सीखने योग्य गेटेड फ्यूजन जोड़कर 0.194 का कैरेक्टर एरर रेट (CER) प्राप्त करता है, जिससे नियंत्रित तुलनाओं में 0.213 के मेल-स्पेक्ट्रोग्राम बेलाइन को पछाड़ दिया गया।
- TTS कार्यान्वयन UTF-8 टेक्स्ट बाइट्स को गाइडेड एटेंशन और HiFi-GAN के साथ एक ऑटोरेग्रेसिव ट्रांसफॉर्मर में सीधे फीड करता है, जिससे टीचर-फोर्सड mel-L1 0.296 प्राप्त होता है।
- जबकि STT परिणाम चार सीड्स (seeds) के across मजबूत माने जाते हैं, मनमाने वाक्यों पर TTS फ्री-रन सिंथेसिस अभी भी खराब और अस्थिर है, इसे उत्पादन-तैयार प्रणाली के बजाय एक संभाव्यता डेमो के रूप में चित्रित करता है।
यह परियोजना टोकनाइज़र-फ्री ऑडियो प्रोसेसिंग के लिए एक प्रूफ-ऑफ-कॉन्सेप्ट के रूप में कार्य करती है, जिसका दीर्घकालिक लक्ष्य अलग-अलग STT और TTS मॉडल को एक ही आर्किटेक्चर में एकीकृत करना है।