HoLo-ToLk: модели речи без токенизатора на основе нулевого параметра HSL

Автор представляет HoLo-ToLk, исследовательский проект по созданию моделей преобразования речи в текст (STT) и текста в речь (TTS) с использованием нулевого параметра HSL byte substrate без токенизаторов или обучаемых входных эмбеддингов. Работа демонстрирует, что сырые байты HSL могут служить жизнеспособным сигналом для обработки аудио при сочетании с определенными архитектурными модификациями.

Производительность STT достигает Character Error Rate (CER) 0.194 за счет добавления обучаемого затворного слияния поверх замороженного субстрата, превосходя базовый мел-спектрограммный показатель 0.213 в контролируемых сравнениях.
Реализация TTS подает байты текста UTF-8 напрямую в авторегрессионный трансформер с направляемым вниманием и HiFi-GAN, достигая teacher-forced mel-L1 0.296.
Хотя результаты STT считаются надежными по четырем седам, свободное генерирование TTS на произвольных предложениях остается грубым и нестабильным, что позиционирует проект как демонстрацию возможности, а не готовую к производству систему.

Проект служит концептуальным доказательством для обработки аудио без токенизаторов, с долгосрочной целью объединения отдельных моделей STT и TTS в единую архитектуру.