研究人员提出了 SpeechCombine,这是一种通过结合文本 LLM 的权重差与语音适配权重来训练的、无需指令微调的遵循指令的语音语言模型。

  • 该方法仅使用 30k 小时数据的一轮语音预训练。
  • 它从文本 LLM 基础模型开始,并在语音话语上进行连续预训练。
  • 该方法直接将语音适配权重与经过指令微调的文本 LLM 版本和基础文本 LLM 版本之间的差异相结合。
  • 结果表明,该策略在有效将能力转移到语音领域的同时,保留了原始文本 LLM 的知识。

这一发现表明了一种新的 SLM 训练方向,避免了对大规模语音数据的依赖。