एक डेवलपर ने Gemma 4 31B मॉडल को पुनर्निर्माण करने की योजना का विवरण दिया है, जिसमें पैरामीटर की संख्या को लगभग 26B तक कम किया जाएगा, जबकि प्रदर्शन में सुधार का लक्ष्य रखा गया है। इस परियोजना में वास्तुकला में बदलाव, विशिष्ट प्रशिक्षण तकनीकों और डेटासेट चयन शामिल हैं ताकि एक छोटा और अधिक कुशल मॉडल बनाया जा सके।
- स्लाइडिंग विंडो एटेंशन (SWA) पांच परतों में से सबसे कमजोर पहली परत 3 को हटाएं।
- SWA एटेंशन स्पैन को 1024/2048/4096/8.1k टोकन तक पुनः स्केल करें, जिसके बाद एक वैश्विक परत आएगी।
- सूचना प्रवाह और वैश्विक सहसंबंध को बेहतर बनाने के लिए वैश्विक परतों में "Attention based Residual Networks" लागू करें।
- नेटवर्क के ऊपरी और निचले हिस्से को फ्रीज करते हुए, पुनः प्रशिक्षण के लिए मूल मॉडल से TopK (12 या 20) लॉगिट्स को टारगेट के रूप में उपयोग करें।
- इन संरचनात्मक संशोधनों के माध्यम से कुल पैरामीटर को ~30.81B से ~26.02B तक कम करें।
लेखक का इरादा छोटे फुटप्रिंट में बेहतर लंबे-संदर्भ क्षमताओं और समग्र प्रदर्शन प्राप्त करने का है, जिसमें मॉडल के "विचार" प्रशिक्षण चरण की संभावित रूप से सेंसरशिप हटाने की योजनाएं भी शामिल हैं।