Inférence audio Gemma-4-12b sur MacBook M2 Max atteint 16,8 tok/s

Un utilisateur a effectué un benchmark du modèle Gemma-4-12b avec entrée audio sur un MacBook M2 Max équipé de 64 Go de RAM, atteignant 16,8 tokens par seconde lors de la première inférence.

La configuration utilise une application de bureau Tauri2 avec une FFI Rust native vers llama.cpp via la bibliothèque llama-cpp-2, permettant l'accélération Metal. Le modèle utilisé est le gemma-4-12b-it-Q5_K_S quantifié par Unsloth. L'entrée audio consiste en un fichier WAV PCM mono 16 bits 16 kHz de 607 Ko traité via le marqueur audio multimodal mtmd.

La vitesse du chemin total se décompose en 2 secondes pour le préremplissage audio et 3,7 secondes pour le décodage, le décodage seul atteignant 26 tok/s. L'utilisateur cherche des commentaires sur les niveaux de performance et des suggestions pour accélérer l'inférence.