Медленная работа Unsloth Gemma 12B Q8
Пользователь сообщает о значительном падении скорости инференса при переключении с GPT-OSS 20B Q4 на Gemma 4 12B Q8 с использованием llama.cpp, при этом пропускная способность упала примерно с 70 токенов в секунду до 10 токенов в секунду. Проблема сохраняется даже при тестировании варианта модели Q5 и отключении функции мышления, что дало лишь незначительный прирост в два дополнительных токена в секунду.