O autor apresenta o HoLo-ToLk, um projeto de pesquisa que constrói modelos de fala-para-texto (STT) e texto-para-fala (TTS) usando o substrato de bytes HSL de zero parâmetros sem tokenizadores ou embeddings de entrada aprendidos. O trabalho demonstra que os bytes brutos do HSL podem servir como um sinal viável para processamento de áudio quando combinados com modificações arquiteturais específicas.

  • O desempenho do STT atinge uma Taxa de Erro de Caracteres (CER) de 0,194 ao adicionar uma fusão gateada aprendível sobre o substrato congelado, superando a linha de base de mel-espectrograma de 0,213 em comparações controladas.
  • A implementação do TTS alimenta bytes de texto UTF-8 diretamente em um transformer autoregressivo com atenção guiada e HiFi-GAN, alcançando um mel-L1 forçado pelo professor de 0,296.
  • Embora os resultados do STT sejam considerados robustos em quatro sementes (seeds), a síntese de execução livre do TTS em frases arbitrárias permanece grosseira e instável, enquadrando-o como uma demonstração de viabilidade em vez de um sistema pronto para produção.

O projeto serve como uma prova de conceito para processamento de áudio sem tokenizador, com o objetivo de longo prazo de unificar os modelos STT e TTS separados em uma única arquitetura.