Разработчик открыл исходный код ядра вывода на базе MLX, предназначенного для запуска модели Gemma 12B локально на потребительском оборудовании, в частности на MacBook с чипами серии M.
Проект ориентирован на ограничения MacBook Pro с 16 ГБ памяти и стремится сократить разрыв между библиотеками MLX и CUDA для локальной разработки моделей. Автор отмечает, что хотя попытка интеграции DSpark предпринималась, требования модели-драфтера к памяти превысили порог в 16 ГБ, что предполагает будущую работу над квантованием или обучением более маленькой модели-драфтера.
В настоящее время основное внимание уделяется завершению нативной интеграции графа и проверке многозапросного предсказания (MTP), при этом теоретическая пропускная способность ограничена 20–30 токенами в секунду из-за ограничений пропускной способности памяти. Код предоставляется как экспериментальный учебный ресурс, а не как готовое решение, хотя автор планирует использовать его в качестве базовой линии для оптимизации моделей Gemma на оборудовании NVIDIA.