La quantification du cache KV dans llama.cpp réduit le tampon de calcul de DeepSeek-V4-Flash par 3

Un utilisateur testant le GGUF DeepSeek-V4-Flash-MXFP4 de Bartowski dans la build 9851 de llama.cpp a découvert que le passage du type de cache KV de f16 à q8_0 réduit l'utilisation du tampon de calcul CUDA0 d'environ 3,26x.

Le passage de f16 à q8_0 a réduit le cache KV total de ~425 MiB à ~226 MiB.
Le même changement a fait passer le tampon de calcul de 12 964 MiB à 3 973 MiB.
Cette réduction évite les erreurs d'out-of-memory sur les cartes de 32 Go lors de l'utilisation de longueurs de contexte élevées comme 32000.

Forcer la quantification du cache q8_0 permet au modèle de se charger avec succès dans des scénarios où f16 dépasserait la VRAM disponible.