media Hugging Face Forums · 3 天前 · open_models

HoLo-ToLk：基于零参数HSL基底的无分词器语音模型

译自 English → 中文

作者介绍了HoLo-ToLk，这是一个研究项目，旨在构建不使用分词器或学习输入嵌入的零参数HSL字节基底上的语音转文本（STT）和文本转语音（TTS）模型。该工作证明，当结合特定的架构修改时，原始HSL字节可以作为音频处理的可行信号。

STT性能通过在被冻结的基底上添加可学习的门控融合，将字符错误率（CER）降至0.194，在受控比较中优于mel频谱图基线的0.213。
TTS实现将UTF-8文本字节直接输入带有引导注意力和HiFi-GAN的自回归Transformer，实现了0.296的教师强制mel-L1损失。
虽然STT结果在四个随机种子下被认为是稳健的，但在任意句子上的TTS自由运行合成仍然粗糙且不稳定，将其定位为可行性演示而非生产就绪系统。

该项目作为无分词器音频处理的概念验证，长期目标是将单独的STT和TTS模型统一为单一架构。

重要性 1/3 可信度 1/3 Hugging Face Forums Research paper Voice & audio