한 개발자가 소비자용 하드웨어, 특히 M 시리즈 맥북에서 Gemma 12B 모델을 로컬로 실행하기 위해 설계된 MLX 기반 추론 커널의 코드를 오픈소스로 공개했습니다.

이 프로젝트는 16GB 맥북 프로의 제약 사항을 중심으로 구축되었으며, 로컬 모델 개발을 위한 MLX와 CUDA 라이브러리 간의 격차를 해소하는 것을 목표로 합니다. 저자는 DSpark 통합을 시도했지만, drafter 모델의 메모리 요구사항이 16GB 임계값을 초과했음을 지적하며, 양자화나 더 작은 drafter 학습에 대한 향후 작업을 제안했습니다.

현재 초점은 네이티브 그래프 통합을 마무리하고 Multi-Token Prediction (MTP)를 검증하는 데 맞춰져 있으며, 메모리 대역폭 제한으로 인해 이론적 처리량은 초당 20-30 tok/s로 제한됩니다. 이 코드는 제품화된 솔루션보다는 실험적인 학습 자료로 제공되며, 저자는 이를 NVIDIA 하드웨어에서 Gemma 모델을 최적화하기 위한 기준점으로 사용할 계획입니다.