MacBook M2 Max에서 Gemma-4-12b 오디오 추론, 16.8 tok/s 달성

한 사용자가 64GB RAM이 탑재된 MacBook M2 Max에서 오디오 입력이 있는 Gemma-4-12b 모델을 벤치마킹하여 첫 번째 추론 동안 초당 16.8개의 토큰을 달성했습니다.

이 설정은 llama-cpp-2 라이브러리를 통해 llama.cpp로의 네이티브 Rust FFI를 사용하는 Tauri2 데스크톱 앱을 활용하여 Metal 가속을 가능하게 합니다. 사용되는 모델은 Unsloth가 양자화한 gemma-4-12b-it-Q5_K_S입니다. 오디오 입력은 mtmd 멀티모달 오디오 마커를 통해 처리되는 607 KB 16비트 모노 16 kHz PCM WAV 파일로 구성됩니다.

전체 경로 속도는 오디오 프리페치에 2초, 디코딩에 3.7초로 분해되며, 디코딩만으로도 초당 26개의 토큰에 도달합니다. 사용자는 성능 수준에 대한 피드백과 추론 속도를 높이기 위한 제안을 구하고 있습니다.