あるユーザーが、64GBのRAMを搭載したMacBook M2 Max上でオーディオ入力付きのGemma-4-12bモデルをベンチマークし、最初の推論中に16.8トークン/秒を達成しました。
このセットアップは、llama-cpp-2ライブラリ経由でllama.cppへのネイティブRust FFIを利用するTauri2デスクトップアプリを使用し、Metalアクセラレーションを有効にしています。使用されるモデルは、Unslothによって量子化されたgemma-4-12b-it-Q5_K_Sです。オーディオ入力は、mtmdマルチモーダルオーディオマーカーを通じて処理される607 KBの16ビットモノラル16 kHz PCM WAVファイルで構成されています。
全体のパス速度は、オーディオプリフェッチに2秒、デコーディングに3.7秒と内訳され、デコーディングのみが26 tok/sに達しています。ユーザーはパフォーマンスレベルに関するフィードバックと、推論を高速化するための提案を求めています。