BaseRT 通过原生 Metal 在 Apple Silicon 上提供一流的 LLM 推理

研究人员展示了 BaseRT，这是一个针对 Apple Silicon 上的大语言模型的原生 Metal 推理运行时，实现了迄今为止报告的最高推理吞吐量。通过利用芯片特定的内核融合和统一内存感知优化，它克服了 llama.cpp 和 MLX 等现有框架中的开销。

作者认为，性能优化的本地运行时对于新兴的边缘推理范式至关重要，有助于满足隐私要求、延迟限制和云成本压力。