Пользователь сообщает о значительном падении скорости инференса при переключении с GPT-OSS 20B Q4 на Gemma 4 12B Q8 с использованием llama.cpp, при этом пропускная способность упала примерно с 70 токенов в секунду до 10 токенов в секунду. Проблема сохраняется даже при тестировании варианта модели Q5 и отключении функции мышления, что дало лишь незначительный прирост в два дополнительных токена в секунду.
- Оборудование: NVIDIA RTX 4000 SFF Ada Generation (20 ГБ видеопамяти) с процессором Intel Core i5-13500 13-го поколения.
- Модель: Gemma 4 12B IT загружена в формате GGUF (Q5_K_XL), потребляя 10 ГБ памяти GPU.
- Конфигурация: llama-server запущен с параметрами `--threads 16`, `--ctx-size 8192` и `--n-gpu-layers 99`.
- Предупреждения: Логи указывают на устаревшие аргументы `enable_thinking`, несоответствие типов управляющих токенов и размер контекста (8192), значительно меньший, чем емкость обучения модели (262144).
Пользователь ищет советы по устранению неполадок для этой регрессии производительности в своей настройке сервиса llama.cpp.