Inferensi audio Gemma-4-12b di MacBook M2 Max mencapai 16,8 tok/s

Seorang pengguna melakukan benchmark model Gemma-4-12b dengan input audio di MacBook M2 Max yang dilengkapi RAM 64GB, mencapai 16,8 token per detik selama inferensi pertama.

Pengaturan ini memanfaatkan aplikasi desktop Tauri2 dengan FFI Rust native ke llama.cpp melalui library llama-cpp-2, memungkinkan akselerasi Metal. Model yang digunakan adalah gemma-4-12b-it-Q5_K_S yang dikuantisasi oleh Unsloth. Input audio terdiri dari file WAV PCM mono 16-bit 16 kHz sebesar 607 KB yang diproses melalui penanda audio multimodal mtmd.

Kecepatan jalur total terbagi menjadi 2 detik untuk prefills audio dan 3,7 detik untuk decoding, dengan decoding saja mencapai 26 tok/s. Pengguna mencari umpan balik tentang tingkat kinerja dan saran untuk mempercepat inferensi.