SpeechCombine: निर्देश अनुसरण करने वाला वक्ता भाषा मॉडल बिना निर्देश ट्यूनिंग के

शोधकर्ता SpeechCombine का प्रस्ताव करते हैं, जो एक ऐसा वक्ता भाषा मॉडल है जो निर्देश ट्यूनिंग के बिना एक टेक्स्ट LLM के वजन अंतर को वक्ता-अनुकूलित वजनों के साथ जोड़कर प्रशिक्षित किया गया है।

विधि में 30k घंटे के डेटा पर केवल एक राउंड वक्ता पूर्व-प्रशिक्षण का उपयोग होता है।
यह एक टेक्स्ट LLM बेस मॉडल से शुरू होता है और वक्ता उच्चारणों पर निरंतर पूर्व-प्रशिक्षण करता है।
दृष्टिकोण सीधे तौर पर वक्ता-अनुकूलित वजनों को निर्देश-ट्यून्ड टेक्स्ट LLM संस्करण और बेस टेक्स्ट LLM संस्करण के बीच के अंतर के साथ जोड़ता है।
परिणाम दिखाते हैं कि रणनीति मूल टेक्स्ट LLM ज्ञान को बनाए रखती है जबकि क्षमताओं को प्रभावी ढंग से वक्ता डोमेन में स्थानांतरित करती है।

यह निष्कर्ष SLM प्रशिक्षण के लिए एक नई दिशा सुझाता है जो विशाल वक्ता डेटा पर निर्भरता से बचता है।