El autor presenta HoLo-ToLk, un proyecto de investigación que construye modelos de habla a texto (STT) y texto a habla (TTS) utilizando el sustrato de bytes HSL de cero parámetros sin tokenizadores ni incrustaciones de entrada aprendidas. El trabajo demuestra que los bytes HSL en bruto pueden servir como una señal viable para el procesamiento de audio cuando se combinan con modificaciones arquitectónicas específicas.

  • El rendimiento de STT alcanza una Tasa de Error de Caracteres (CER) de 0.194 al añadir una fusión gateada aprendible sobre el sustrato congelado, superando una línea base de mel-espectrograma de 0.213 en comparaciones controladas.
  • La implementación de TTS alimenta bytes de texto UTF-8 directamente a un transformador autoregresivo con atención guiada y HiFi-GAN, logrando un mel-L1 forzado por maestro de 0.296.
  • Aunque los resultados de STT se consideran robustos en cuatro semillas, la síntesis libre de TTS en oraciones arbitrarias sigue siendo tosca e inestable, enmarcándola como una demostración de viabilidad más que como un sistema listo para producción.

El proyecto sirve como una prueba de concepto para el procesamiento de audio sin tokenizador, con el objetivo a largo plazo de unificar los modelos STT y TTS separados en una sola arquitectura.