एक डेवलपर ने उपभोक्ता हार्डवेयर पर Gemma 12B मॉडल को स्थानीय रूप से चलाने के लिए डिज़ाइन किए गए MLX-आधारित इनफरेंस kernel का कोड ओपन-सोर्स किया है, विशेष रूप से M-सीरीज MacBooks को लक्षित करते हुए।

प्रोजेक्ट 16GB MacBook Pro की बाधाओं के आसपास बनाया गया है और स्थानीय मॉडल विकास के लिए MLX और CUDA लाइब्रेरी के बीच की खाई को पाटने का प्रयास करता है। लेखक ने नोट किया है कि हालांकि DSpark एकीकरण की कोशिश की गई थी, लेकिन drafter मॉडल की मेमोरी आवश्यकताएं 16GB की सीमा से अधिक थीं, जिससे भविष्य के क्वांटिज़ेशन या छोटे drafter को प्रशिक्षित करने पर काम का संकेत मिलता है।

वर्तमान ध्यान नेटिव ग्राफ एकीकरण को अंतिम रूप देने और मल्टी-टोकन प्रेडिक्शन (MTP) की वैलिडेशन पर है, मेमोरी बैंडविड्थ सीमाओं के कारण सैद्धांतिक थ्रूपुट 20-30 टोकन प्रति सेकंड तक सीमित है। कोड एक उत्पादित समाधान के बजाय एक प्रायोगिक शिक्षण संसाधन के रूप में प्रदान किया गया है, हालांकि लेखक NVIDIA हार्डवेयर पर Gemma मॉडल को अनुकूलित करने के आधार के रूप में इसका उपयोग करने की योजना बना रहा है।