ある開発者が、コンシューマーハードウェア、特にMシリーズMacBook上でGemma 12Bモデルをローカルで実行するために設計されたMLXベースの推論カーネルのコードをオープンソースとして公開しました。
このプロジェクトは16GB MacBook Proの制約を中心に構築されており、ローカルモデル開発におけるMLXとCUDAライブラリの間のギャップを埋めることを目指しています。著者はDSparkの統合を試みましたが、ドラフターモデルのメモリ要件が16GBの閾値を超えたため、量子化やより小さなドラフターのトレーニングに関する今後の作業が必要であることを示唆しています。
現在の焦点はネイティブグラフ統合の最終化とMulti-Token Prediction (MTP) の検証にあり、メモリ帯域幅の制限により理論上のスループットは1秒あたり20〜30トークンに制限されています。このコードは製品化されたソリューションではなく実験的な学習リソースとして提供されていますが、著者はNVIDIAハードウェア上でGemmaモデルを最適化する際のベースラインとして使用することを計画しています。