L'auteur présente HoLo-ToLk, un projet de recherche qui construit des modèles de parole vers texte (STT) et de texte vers parole (TTS) en utilisant la base d'octets HSL à zéro paramètre sans tokenizers ni embeddings d'apprentissage. Le travail démontre que les octets HSL bruts peuvent servir de signal viable pour le traitement audio lorsqu'ils sont combinés avec des modifications architecturales spécifiques.

  • Les performances STT atteignent un Taux d'Erreur de Caractère (CER) de 0,194 en ajoutant une fusion à porte apprise sur la base figée, surpassant une baseline de spectrogramme mel de 0,213 dans des comparaisons contrôlées.
  • L'implémentation TTS alimente directement les octets de texte UTF-8 dans un transformateur autoregressif avec attention guidée et HiFi-GAN, atteignant un mel-L1 forcé par l'enseignant de 0,296.
  • Bien que les résultats STT soient considérés comme robustes sur quatre graines, la synthèse en exécution libre TTS sur des phrases arbitraires reste approximative et instable, ce qui la cadre comme une démonstration de faisabilité plutôt que comme un système prêt pour la production.

Le projet sert de preuve de concept pour le traitement audio sans tokenizers, avec l'objectif à long terme d'unifier les modèles STT et TTS séparés en une seule architecture.