SpeechCombine: модель речевого языка, следующая инструкциям, без тонкой настройки на инструкциях

Исследователи предлагают SpeechCombine, модель речевого языка, следующую инструкциям, обученную без тонкой настройки на инструкциях путем объединения разницы весов текстовой LLM с весами, адаптированными для речи.

Метод использует только один раунд предварительного обучения на речевых данных объемом 30 тысяч часов.
Он начинается с базовой модели текстовой LLM и выполняет непрерывное предварительное обучение на речевых высказываниях.
Подход напрямую объединяет веса, адаптированные для речи, с разницей между версиями текстовой LLM с тонкой настройкой на инструкциях и базовой версией.
Результаты показывают, что стратегия сохраняет исходные знания текстовой LLM, эффективно передавая возможности в область речи.

Это открытие предполагает новое направление для обучения SLM, которое избегает зависимости от массивных речевых данных.