قام مستخدم بمقاييس أداء لنموذج Gemma-4-12b بإدخال صوتي على جهاز MacBook M2 Max مزود بذاكرة RAM سعة 64 جيجابايت، محققاً سرعة 16.8 توكن في الثانية أثناء الاستنتاج الأول.

تستخدم الإعداد تطبيق سطح مكتب Tauri2 مع واجهة FFI أصلية لـ Rust إلى llama.cpp عبر مكتبة llama-cpp-2، مما يتيح تسريع Metal. النموذج المستخدم هو gemma-4-12b-it-Q5_K_S الذي تم كمّنته بواسطة Unsloth. يتكون إدخال الصوت من ملف WAV بصيغة PCM أحادي القناة 16 بت بتردد 16 كيلو هرتز بحجم 607 كيلوبايت يتم معالجته عبر علامة الصوت متعدد الوسائط mtmd.

ينقسم سرعة المسار الإجمالي إلى ثانيتين لملء الصوت مسبقاً و3.7 ثوانٍ للفك، حيث يصل الفك وحده إلى 26 توكن/ثانية. يبحث المستخدم عن ملاحظات حول مستويات الأداء واقتراحات لتسريع الاستنتاج.