Исследователи предлагают SpeechCombine, модель речевого языка, следующую инструкциям, обученную без тонкой настройки на инструкциях путем объединения разницы весов текстовой LLM с весами, адаптированными для речи.

  • Метод использует только один раунд предварительного обучения на речевых данных объемом 30 тысяч часов.
  • Он начинается с базовой модели текстовой LLM и выполняет непрерывное предварительное обучение на речевых высказываниях.
  • Подход напрямую объединяет веса, адаптированные для речи, с разницей между версиями текстовой LLM с тонкой настройкой на инструкциях и базовой версией.
  • Результаты показывают, что стратегия сохраняет исходные знания текстовой LLM, эффективно передавая возможности в область речи.

Это открытие предполагает новое направление для обучения SLM, которое избегает зависимости от массивных речевых данных.