Seorang pengembang telah merilis kode sumber untuk kernel inferensi berbasis MLX yang dirancang untuk menjalankan model Gemma 12B secara lokal pada perangkat konsumen, khususnya menargetkan MacBook seri M.

Proyek ini dibangun di sekitar keterbatasan MacBook Pro 16GB dan bertujuan menjembatani kesenjangan antara pustaka MLX dan CUDA untuk pengembangan model lokal. Penulis mencatat bahwa meskipun integrasi DSpark telah dicoba, kebutuhan memori model drafter melebihi batas 16GB, yang menunjukkan perlunya pekerjaan lebih lanjut pada kuantisasi atau pelatihan drafter yang lebih kecil.

Fokus saat ini adalah menyelesaikan integrasi grafik asli dan memvalidasi Prediksi Multi-Token (MTP), dengan throughput teoritis dibatasi pada 20-30 token per detik karena keterbatasan bandwidth memori. Kode disediakan sebagai sumber daya pembelajaran eksperimental daripada solusi yang dipasarkan, meskipun penulis berencana menggunakannya sebagai dasar untuk mengoptimalkan model Gemma pada perangkat keras NVIDIA.