作者介绍了HoLo-ToLk,这是一个研究项目,旨在构建不使用分词器或学习输入嵌入的零参数HSL字节基底上的语音转文本(STT)和文本转语音(TTS)模型。该工作证明,当结合特定的架构修改时,原始HSL字节可以作为音频处理的可行信号。
- STT性能通过在被冻结的基底上添加可学习的门控融合,将字符错误率(CER)降至0.194,在受控比较中优于mel频谱图基线的0.213。
- TTS实现将UTF-8文本字节直接输入带有引导注意力和HiFi-GAN的自回归Transformer,实现了0.296的教师强制mel-L1损失。
- 虽然STT结果在四个随机种子下被认为是稳健的,但在任意句子上的TTS自由运行合成仍然粗糙且不稳定,将其定位为可行性演示而非生产就绪系统。
该项目作为无分词器音频处理的概念验证,长期目标是将单独的STT和TTS模型统一为单一架构。