MacBook M2 Max 上 Gemma-4-12b 音频推理达到 16.8 tok/s

用户在配备 64GB RAM 的 MacBook M2 Max 上使用音频输入对 Gemma-4-12b 模型进行基准测试，在首次推理期间达到每秒 16.8 个 token。

该设置使用 Tauri2 桌面应用，通过 llama-cpp-2 库将原生 Rust FFI 接入 llama.cpp，从而启用 Metal 加速。使用的模型是 Unsloth 量化的 gemma-4-12b-it-Q5_K_S。音频输入由一个 607 KB、16 位单声道、16 kHz PCM WAV 文件组成，通过 mtmd 多模态音频标记器处理。

总路径速度分解为音频预填充耗时 2 秒，解码耗时 3.7 秒，仅解码部分就达到了 26 tok/s。用户寻求关于性能水平的反馈以及加速推理的建议。