Un utilisateur testant le GGUF DeepSeek-V4-Flash-MXFP4 de Bartowski dans la build 9851 de llama.cpp a découvert que le passage du type de cache KV de f16 à q8_0 réduit l'utilisation du tampon de calcul CUDA0 d'environ 3,26x.

  • Le passage de f16 à q8_0 a réduit le cache KV total de ~425 MiB à ~226 MiB.
  • Le même changement a fait passer le tampon de calcul de 12 964 MiB à 3 973 MiB.
  • Cette réduction évite les erreurs d'out-of-memory sur les cartes de 32 Go lors de l'utilisation de longueurs de contexte élevées comme 32000.

Forcer la quantification du cache q8_0 permet au modèle de se charger avec succès dans des scénarios où f16 dépasserait la VRAM disponible.