一位开发者开源了一个基于 MLX 的推理内核代码,旨在消费级硬件上本地运行 Gemma 12B 模型,特别针对 M 系列 MacBook。
该项目围绕 16GB MacBook Pro 的限制构建,旨在弥合 MLX 和 CUDA 库之间在本地模型开发方面的差距。作者指出,虽然曾尝试集成 DSpark,但 drafter 模型的内存需求超过了 16GB 的阈值,这表明未来需要在量化或训练更小的 drafter 方面开展工作。
目前的重点在于完成原生图集成并验证多令牌预测 (MTP),由于内存带宽限制,理论吞吐量上限为每秒 20-30 个令牌。该代码作为实验性学习资源提供,而非产品化解决方案,尽管作者计划将其用作在 NVIDIA 硬件上优化 Gemma 模型的基础。