Inferência de áudio Gemma-4-12b no MacBook M2 Max atinge 16,8 tok/s

Um usuário faz benchmark do modelo Gemma-4-12b com entrada de áudio em um MacBook M2 Max equipado com 64 GB de RAM, alcançando 16,8 tokens por segundo durante a primeira inferência.

A configuração utiliza um aplicativo desktop Tauri2 com FFI nativo de Rust no llama.cpp através da biblioteca llama-cpp-2, permitindo aceleração Metal. O modelo usado é o gemma-4-12b-it-Q5_K_S quantizado pelo Unsloth. A entrada de áudio consiste em um arquivo WAV PCM mono de 16 bits a 16 kHz de 607 KB processado através do marcador de áudio multimodal mtmd.

A velocidade total do caminho se divide em 2 segundos para prefill de áudio e 3,7 segundos para decodificação, com apenas a decodificação atingindo 26 tok/s. O usuário busca feedback sobre os níveis de desempenho e sugestões para acelerar a inferência.