يقدم المؤلف مشروع HoLo-ToLk، وهو بحث يبني نماذج تحويل الكلام إلى نص (STT) والنص إلى كلام (TTS) باستخدام أساس بايت HSL بمعاملات صفرية دون استخدام موحدات أو تضمينات مدخلات متعلمة. يوضح العمل أن بايتات HSL الخام يمكن أن تعمل كإشارة قابلة للتطبيق لمعالجة الصوت عند دمجها مع تعديلات معمارية محددة.

  • تصل أداء STT إلى معدل خطأ الحرف (CER) قدره 0.194 بإضافة اندماج قابل للتعلم عبر الأساس المجمد، متفوقاً على خط الأساس الخاص بمخطط الطيف الميل بـ 0.213 في مقارنات خاضعة للرقابة.
  • يقوم تنفيذ TTS بإدخال بايتات النص UTF-8 مباشرةً إلى محول ذاتي التنبؤ مع انتباه موجه وHiFi-GAN، محققاً mel-L1 مدفوعاً بالمعلم بقيمة 0.296.
  • بينما تعتبر نتائج STT قوية عبر أربع بذور، يظل توليد TTS الحر على جمل عشوائية خشناً وغير مستقر، مما يصوره كعرض لإمكانية التنفيذ بدلاً من نظام جاهز للإنتاج.

يخدم المشروع كدليل مفاهيمي لمعالجة الصوت بدون موحدات، بهدف طويل المدى توحيد نماذج STT وTTS المنفصلة في بنية واحدة.