研究者らは、テキストLLMの重み差分と音声適応重みを組み合わせることで、インストラクションチューニングなしで訓練されたインストラクションフォロー型音声言語モデルであるSpeechCombineを提案した。

  • この手法は、30k時間のデータに対して単一の音声事前訓練ラウンドのみを使用する。
  • テキストLLMのベースモデルから開始し、音声発話に対して継続的な事前訓練を実行する。
  • このアプローチは、音声適応重みと、インストラクションチューニング済みテキストLLMとベーステキストLLMのバージョン間の差分を直接組み合わせる。
  • 結果は、この戦略が元のテキストLLMの知識を維持しつつ、能力を音声ドメインに効果的に転送することを示している。

この知見は、大規模な音声データへの依存を回避するSLM訓練の新しい方向性を示唆している。