研究者らは、Apple Silicon上の大規模言語モデル向けに、これまで報告された中で最高の推論スループットを達成するネイティブMetal推論ランタイム「BaseRT」を発表しました。チップ固有のカーネル融合と統一メモリ対応の最適化を活用することで、llama.cppやMLXといった既存のフレームワークで見られるオーバーヘッドを克服しています。
- すべてのApple MシリーズデバイスでQ2からFP16までの8つの量子化フォーマットをサポート。
- M3およびM4 Proデバイスにおいて、llama.cppよりも最大1.56倍、MLXよりも1.35倍高いデコードスループットを達成。
- MoEモデルにおけるprefill処理で大幅に大きなマージンを示す。
- 1B未満から30Bパラメータのモデルまで、一貫して最高クラスのスループットを維持。
著者らは、パフォーマンス最適化されたローカルランタイムが、プライバシー要件、レイテンシ制約、クラウドコストの圧力に対処する上で重要となる新興のエッジ推論パラダイムにおいて極めて重要であると主張しています。