Исследователи предлагают SpeechCombine, модель речевого языка, следующую инструкциям, обученную без тонкой настройки на инструкциях путем объединения разницы весов текстовой LLM с весами, адаптированными для речи.
- Метод использует только один раунд предварительного обучения на речевых данных объемом 30 тысяч часов.
- Он начинается с базовой модели текстовой LLM и выполняет непрерывное предварительное обучение на речевых высказываниях.
- Подход напрямую объединяет веса, адаптированные для речи, с разницей между версиями текстовой LLM с тонкой настройкой на инструкциях и базовой версией.
- Результаты показывают, что стратегия сохраняет исходные знания текстовой LLM, эффективно передавая возможности в область речи.
Это открытие предполагает новое направление для обучения SLM, которое избегает зависимости от массивных речевых данных.