arxiv arXiv cs.CL · 1시간 전 · 출처: 2일 전 · research

SpeechCombine: 지시 튜닝 없이 지시를 따르는 음성 언어 모델

번역 English → 한국어

연구자들은 텍스트 LLM의 가중치 차이를 음성 적응 가중치와 결합하여 지시 튜닝 없이 훈련된 지시를 따르는 음성 언어 모델인 SpeechCombine을 제안했습니다.

이 방법은 30k 시간의 데이터에 대해 단 한 번의 음성 사전 훈련만 사용합니다.
텍스트 LLM 베이스 모델에서 시작하여 음성 발화에 대해 연속적인 사전 훈련을 수행합니다.
이 접근 방식은 음성 적응 가중치와 지시 튜닝된 텍스트 LLM 버전과 베이스 텍스트 LLM 버전 간의 차이를 직접 결합합니다.
결과는 이 전략이 원래 텍스트 LLM의 지식을 보존하면서 능력을 음성 도메인에 효과적으로 전달함을 보여줍니다.

이 발견은 대량의 음성 데이터에 대한 의존을 피하는 SLM 훈련의 새로운 방향을 시사합니다.

중요도 1/3 arXiv cs.CL Research paper Training methods