arxiv arXiv cs.CL · 1 小时前 · 来源： 2 天前 · research

SpeechCombine：无需指令微调的遵循指令的语音语言模型

译自 English → 中文

研究人员提出了 SpeechCombine，这是一种通过结合文本 LLM 的权重差与语音适配权重来训练的、无需指令微调的遵循指令的语音语言模型。

该方法仅使用 30k 小时数据的一轮语音预训练。
它从文本 LLM 基础模型开始，并在语音话语上进行连续预训练。
该方法直接将语音适配权重与经过指令微调的文本 LLM 版本和基础文本 LLM 版本之间的差异相结合。
结果表明，该策略在有效将能力转移到语音领域的同时，保留了原始文本 LLM 的知识。

这一发现表明了一种新的 SLM 训练方向，避免了对大规模语音数据的依赖。

重要性 1/3 arXiv cs.CL Research paper Training methods