Rendimiento lento de Unsloth Gemma 12B Q8
Un usuario reporta una caída significativa en la velocidad de inferencia al cambiar de GPT-OSS 20B Q4 a Gemma 4 12B Q8 usando llama.cpp, con un throughput que cae de aproximadamente 70 tokens por segundo a 10 tokens por segundo. El problema persiste incluso al probar una variante del modelo Q5 y desactivar la función de pensamiento, lo cual solo produjo una ganancia marginal de dos tokens adicionales por segundo.