Пользователь тестирует модель Gemma-4-12b с аудиовходом на MacBook M2 Max с 64 ГБ ОЗУ, достигая скорости 16,8 токенов в секунду при первом запуске.

Конфигурация использует десктопное приложение Tauri2 с нативным Rust FFI для llama.cpp через библиотеку llama-cpp-2, что обеспечивает ускорение на Metal. Используется модель gemma-4-12b-it-Q5_K_S, квантованная Unsloth. Аудиовход представляет собой 607 КБ файл WAV (16 бит, моно, 16 кГц PCM), обработанный через mtmd мультимодальный аудио маркер.

Общая скорость разбивается на 2 секунды для префилла аудио и 3,7 секунды для декодирования, при этом только декодирование достигает 26 ток/с. Пользователь ищет отзывы о уровне производительности и предложения по ускорению инференса.