एक उपयोगकर्ता ने 64GB RAM से लैस MacBook M2 Max पर ऑडियो इनपुट के साथ Gemma-4-12b मॉडल का बेंचमार्क लिया, पहले इनफरेंस के दौरान प्रति सेकंड 16.8 टोकन हासिल किया।
सेटअप में llama-cpp-2 लाइब्रेरी के माध्यम से llama.cpp में नेटिव Rust FFI के साथ एक Tauri2 डेस्कटॉप ऐप का उपयोग किया गया है, जिससे Metal एक्सीलरेशन सक्षम होता है। उपयोग किया गया मॉडल Unsloth द्वारा क्वांटाइज्ड gemma-4-12b-it-Q5_K_S है। ऑडियो इनपुट में mtmd मल्टीमोडल ऑडियो मार्कर के माध्यम से प्रसंस्कृत 607 KB 16-बिट मोनो 16 kHz PCM WAV फ़ाइल शामिल है।
कुल पथ गति को ऑडियो प्रीफिल के लिए 2 सेकंड और डिकोडिंग के लिए 3.7 सेकंड में विभाजित किया गया है, जबकि केवल डिकोडिंग 26 tok/s तक पहुँचती है। उपयोगकर्ता प्रदर्शन स्तरों पर फीडबैक और इनफरेंस को तेज़ करने के सुझाव चाहता है।