arxiv arXiv cs.CL · 1時間前 · ソース: 2日前 · research

SpeechCombine: インストラクションチューニング不要のインストラクションフォロー型音声言語モデル

翻訳元 English → 日本語

研究者らは、テキストLLMの重み差分と音声適応重みを組み合わせることで、インストラクションチューニングなしで訓練されたインストラクションフォロー型音声言語モデルであるSpeechCombineを提案した。

この手法は、30k時間のデータに対して単一の音声事前訓練ラウンドのみを使用する。
テキストLLMのベースモデルから開始し、音声発話に対して継続的な事前訓練を実行する。
このアプローチは、音声適応重みと、インストラクションチューニング済みテキストLLMとベーステキストLLMのバージョン間の差分を直接組み合わせる。
結果は、この戦略が元のテキストLLMの知識を維持しつつ、能力を音声ドメインに効果的に転送することを示している。

この知見は、大規模な音声データへの依存を回避するSLM訓練の新しい方向性を示唆している。

重要度 1/3 arXiv cs.CL Research paper Training methods

原文を読む