Un usuario demuestra ejecutar el modelo Qwen3.6-27 en cuantización Q8_0 con hasta 115,000 tokens de contexto en un sistema con 32GB de VRAM. Al experimentar con diferentes niveles de cuantización del caché clave-valor (KV) junto con los pesos del modelo, logró una inferencia estable usando llama-server y descodificación especulativa draft-mtp.
- La Opción 1 utilizó un caché KV Q8_0 para soportar 95K de contexto, logrando una velocidad agregada de tokens de 141.6 tok/s en tareas de generación de código.
- La Opción 2 redujo el caché KV a Q5_1 para extender el contexto a 105K tokens, manteniendo un rendimiento similar con una tasa de 142.0 tok/s.
- La Opción 3 bajó aún más el caché KV a Q4_0 para alcanzar 115K de contexto, resultando en una tasa de aceptación agregada de 0.6969 y 138.7 tok/s para generación de código.
La configuración permite a los usuarios empujar los límites del contexto significativamente más allá de las restricciones típicas en hardware de gama consumer equilibrando la precisión de los pesos del modelo con la cuantización del caché KV.