开发者开源 MLX Gemma 12B 内核项目，用于本地微调

一位开发者开源了一个基于 MLX 的推理内核代码，旨在消费级硬件上本地运行 Gemma 12B 模型，特别针对 M 系列 MacBook。

该项目围绕 16GB MacBook Pro 的限制构建，旨在弥合 MLX 和 CUDA 库之间在本地模型开发方面的差距。作者指出，虽然曾尝试集成 DSpark，但 drafter 模型的内存需求超过了 16GB 的阈值，这表明未来需要在量化或训练更小的 drafter 方面开展工作。

目前的重点在于完成原生图集成并验证多令牌预测 (MTP)，由于内存带宽限制，理论吞吐量上限为每秒 20-30 个令牌。该代码作为实验性学习资源提供，而非产品化解决方案，尽管作者计划将其用作在 NVIDIA 硬件上优化 Gemma 模型的基础。