研究者らは、テキストLLMの重み差分と音声適応重みを組み合わせることで、インストラクションチューニングなしで訓練されたインストラクションフォロー型音声言語モデルであるSpeechCombineを提案した。
- この手法は、30k時間のデータに対して単一の音声事前訓練ラウンドのみを使用する。
- テキストLLMのベースモデルから開始し、音声発話に対して継続的な事前訓練を実行する。
- このアプローチは、音声適応重みと、インストラクションチューニング済みテキストLLMとベーステキストLLMのバージョン間の差分を直接組み合わせる。
- 結果は、この戦略が元のテキストLLMの知識を維持しつつ、能力を音声ドメインに効果的に転送することを示している。
この知見は、大規模な音声データへの依存を回避するSLM訓練の新しい方向性を示唆している。