연구자들은 텍스트 LLM의 가중치 차이를 음성 적응 가중치와 결합하여 지시 튜닝 없이 훈련된 지시를 따르는 음성 언어 모델인 SpeechCombine을 제안했습니다.
- 이 방법은 30k 시간의 데이터에 대해 단 한 번의 음성 사전 훈련만 사용합니다.
- 텍스트 LLM 베이스 모델에서 시작하여 음성 발화에 대해 연속적인 사전 훈련을 수행합니다.
- 이 접근 방식은 음성 적응 가중치와 지시 튜닝된 텍스트 LLM 버전과 베이스 텍스트 LLM 버전 간의 차이를 직접 결합합니다.
- 결과는 이 전략이 원래 텍스트 LLM의 지식을 보존하면서 능력을 음성 도메인에 효과적으로 전달함을 보여줍니다.
이 발견은 대량의 음성 데이터에 대한 의존을 피하는 SLM 훈련의 새로운 방향을 시사합니다.