Inferencia de audio Gemma-4-12b en MacBook M2 Max alcanza 16,8 tok/s

Un usuario realiza pruebas del modelo Gemma-4-12b con entrada de audio en un MacBook M2 Max equipado con 64 GB de RAM, logrando 16,8 tokens por segundo durante la primera inferencia.

La configuración utiliza una aplicación de escritorio Tauri2 con FFI nativo de Rust en llama.cpp a través de la biblioteca llama-cpp-2, habilitando la aceleración Metal. El modelo utilizado es gemma-4-12b-it-Q5_K_S cuantizado por Unsloth. La entrada de audio consiste en un archivo WAV PCM mono de 16 bits a 16 kHz de 607 KB procesado a través del marcador de audio multimodal mtmd.

La velocidad total del camino se desglosa en 2 segundos para el prellenado de audio y 3,7 segundos para la decodificación, con solo la decodificación alcanzando 26 tok/s. El usuario busca comentarios sobre los niveles de rendimiento y sugerencias para acelerar la inferencia.