研究人员展示了 BaseRT,这是一个针对 Apple Silicon 上的大语言模型的原生 Metal 推理运行时,实现了迄今为止报告的最高推理吞吐量。通过利用芯片特定的内核融合和统一内存感知优化,它克服了 llama.cpp 和 MLX 等现有框架中的开销。
- 支持所有 Apple M 系列设备上的八种量化格式(Q2 到 FP16)。
- 在 M3 和 M4 Pro 设备上,解码吞吐量比 llama.cpp 高多达 1.56 倍,比 MLX 高多达 1.35 倍。
- 对于 mixture-of-experts 模型,prefill 阶段显示出显著更大的优势。
- 为从不到 1B 到 30B 参数的模型保持始终如一的一流吞吐量。
作者认为,性能优化的本地运行时对于新兴的边缘推理范式至关重要,有助于满足隐私要求、延迟限制和云成本压力。