用户在配备 64GB RAM 的 MacBook M2 Max 上使用音频输入对 Gemma-4-12b 模型进行基准测试,在首次推理期间达到每秒 16.8 个 token。
该设置使用 Tauri2 桌面应用,通过 llama-cpp-2 库将原生 Rust FFI 接入 llama.cpp,从而启用 Metal 加速。使用的模型是 Unsloth 量化的 gemma-4-12b-it-Q5_K_S。音频输入由一个 607 KB、16 位单声道、16 kHz PCM WAV 文件组成,通过 mtmd 多模态音频标记器处理。
总路径速度分解为音频预填充耗时 2 秒,解码耗时 3.7 秒,仅解码部分就达到了 26 tok/s。用户寻求关于性能水平的反馈以及加速推理的建议。