Un utilisateur démontre l'exécution du modèle Qwen3.6-27 en quantisation Q8_0 avec jusqu'à 115 000 tokens de contexte sur un système disposant de 32 Go de VRAM. En expérimentant différents niveaux de quantisation du cache clé-valeur (KV) alongside les poids du modèle, ils ont obtenu une inférence stable en utilisant llama-server et le décodage spéculatif draft-mtp.
- L'option 1 a utilisé un cache KV Q8_0 pour prendre en charge un contexte de 95K, atteignant une vitesse globale de tokens de 141.6 tok/s sur les tâches de génération de code.
- L'option 2 a réduit le cache KV à Q5_1 pour étendre le contexte à 105K tokens, maintenant des performances similaires avec un taux de 142.0 tok/s.
- L'option 3 a encore abaissé le cache KV à Q4_0 pour atteindre 115K de contexte, résultant en un taux d'acceptation global de 0.6969 et 138.7 tok/s pour la génération de code.
La configuration permet aux utilisateurs de repousser considérablement les limites du contexte bien au-delà des contraintes typiques sur le matériel grand public en équilibrant la précision des poids du modèle avec la quantisation du cache KV.