Un usuario reporta una caída significativa en la velocidad de inferencia al cambiar de GPT-OSS 20B Q4 a Gemma 4 12B Q8 usando llama.cpp, con un throughput que cae de aproximadamente 70 tokens por segundo a 10 tokens por segundo. El problema persiste incluso al probar una variante del modelo Q5 y desactivar la función de pensamiento, lo cual solo produjo una ganancia marginal de dos tokens adicionales por segundo.
- Hardware: NVIDIA RTX 4000 SFF Ada Generation (20GB VRAM) con CPU Intel Core i5-13500 de 13ª Gen.
- Modelo: Gemma 4 12B IT cargado como GGUF (Q5_K_XL), consumiendo 10GB de memoria GPU.
- Configuración: llama-server ejecutándose con `--threads 16`, `--ctx-size 8192` y `--n-gpu-layers 99`.
- Advertencias: Los registros indican kwargs `enable_thinking` obsoletas, incompatibilidades en el tipo de token de control y un tamaño de contexto (8192) mucho menor que la capacidad de entrenamiento del modelo (262144).
El usuario está buscando consejos para solucionar este retroceso de rendimiento en su configuración de servicio llama.cpp.