HoLo-ToLk: модели речи без токенизатора на основе нулевого параметра HSL
Автор представляет HoLo-ToLk, исследовательский проект по созданию моделей преобразования речи в текст (STT) и текста в речь (TTS) с использованием нулевого параметра HSL byte substrate без токенизаторов или обучаемых входных эмбеддингов. Работа демонстрирует, что сырые байты HSL могут служить жизнеспособным сигналом для обработки аудио при сочетании с определенными архитектурными модификациями.