एक Reddit उपयोगकर्ता ने परतों की संख्या को 60 से 88 तक बढ़ाकर Google के Gemma4-31B मॉडल को लगभग 47 अरब पैरामीटर तक विस्तारित किया। इस प्रक्रिया में LLaMA Pro दृष्टिकोण का पालन करते हुए पहचान-आधारित प्रारंभीकरण के साथ विस्तार शामिल था, जिसके बाद कोरियन कानूनी और STEM डेटा पर फाइन-ट्यून किया गया।
- विशिष्ट layer_scalar सुधार के साथ identity-init का उपयोग करके Gemma4-31B को 60 से 80 परतों तक बढ़ाया।
- पहले से ही फाइन-ट्यून किए गए मॉडल पर दूसरा ब्लॉक प्रतिकृति विस्तार 80 से 88 परतों तक किया गया।
- परिणामी ~47B पैरामीटर वाले मॉडल को कोरियन कानूनी और STEM डेटासेट पर फाइन-ट्यून किया गया।
- सत्यापित किया कि प्रतिकृति की गई पूर्ण-ध्यान परतों ने प्रशिक्षण में सक्रिय रूप से योगदान दिया, न कि निष्क्रिय रहने के बजाय।
लेखक Hugging Face पर आर्किटेक्चर विवरण और मॉडल कार्ड साझा करता है, कानूनी और STEM उपयोग मामलों के लिए प्रारंभिक वादे का उल्लेख करते हुए, कोडिंग और टूल-कॉलिंग क्षमताओं में सुधार के लिए समुदाय की मदद की खोज कर रहा है।