डेवलपर ने स्थानीय फाइन-ट्यूनिंग के लिए MLX Gemma 12B kernel प्रोजेक्ट ओपन-सोर्स किया

एक डेवलपर ने उपभोक्ता हार्डवेयर पर Gemma 12B मॉडल को स्थानीय रूप से चलाने के लिए डिज़ाइन किए गए MLX-आधारित इनफरेंस kernel का कोड ओपन-सोर्स किया है, विशेष रूप से M-सीरीज MacBooks को लक्षित करते हुए।

प्रोजेक्ट 16GB MacBook Pro की बाधाओं के आसपास बनाया गया है और स्थानीय मॉडल विकास के लिए MLX और CUDA लाइब्रेरी के बीच की खाई को पाटने का प्रयास करता है। लेखक ने नोट किया है कि हालांकि DSpark एकीकरण की कोशिश की गई थी, लेकिन drafter मॉडल की मेमोरी आवश्यकताएं 16GB की सीमा से अधिक थीं, जिससे भविष्य के क्वांटिज़ेशन या छोटे drafter को प्रशिक्षित करने पर काम का संकेत मिलता है।

वर्तमान ध्यान नेटिव ग्राफ एकीकरण को अंतिम रूप देने और मल्टी-टोकन प्रेडिक्शन (MTP) की वैलिडेशन पर है, मेमोरी बैंडविड्थ सीमाओं के कारण सैद्धांतिक थ्रूपुट 20-30 टोकन प्रति सेकंड तक सीमित है। कोड एक उत्पादित समाधान के बजाय एक प्रायोगिक शिक्षण संसाधन के रूप में प्रदान किया गया है, हालांकि लेखक NVIDIA हार्डवेयर पर Gemma मॉडल को अनुकूलित करने के आधार के रूप में इसका उपयोग करने की योजना बना रहा है।