Penulis memperkenalkan HoLo-ToLk, sebuah proyek penelitian yang membangun model ucapan-ke-teks (STT) dan teks-ke-ucapan (TTS) menggunakan substrat byte HSL nol-parameter tanpa tokenizer atau embedding input yang dipelajari. Karya ini menunjukkan bahwa byte HSL mentah dapat berfungsi sebagai sinyal yang layak untuk pemrosesan audio ketika digabungkan dengan modifikasi arsitektur spesifik.

  • Kinerja STT mencapai Tingkat Kesalahan Karakter (CER) sebesar 0,194 dengan menambahkan fusi gerbang yang dapat dipelajari di atas substrat beku, mengungguli baseline mel-spectrogram sebesar 0,213 dalam perbandingan terkontrol.
  • Implementasi TTS memasukkan byte teks UTF-8 secara langsung ke dalam transformer autoregresif dengan perhatian terpandu dan HiFi-GAN, mencapai mel-L1 teacher-forced sebesar 0,296.
  • Meskipun hasil STT dianggap robust di empat seed, sintesis TTS free-run pada kalimat sembarang masih kasar dan tidak stabil, membingkainya sebagai demonstrasi kelayakan daripada sistem siap produksi.

Proyek ini berfungsi sebagai bukti konsep untuk pemrosesan audio tanpa tokenizer, dengan tujuan jangka panjang menyatukan model STT dan TTS yang terpisah menjadi satu arsitektur.