L'utilisateur fairydreaming a fusionné des demandes de tirage vers sa branche llama.cpp afin d'activer le support du cache clé-valeur (KV) quantisé pour le modèle DeepSeek V4. Les modifications intègrent les correctifs des PR #25247, #25303 et #25202, avec quelques ajustements de remplissage omis.
- L'implémentation prend en charge les types de quantification Q8_0 et Q4_0 pour les caches KV.
- Les tests de perplexité sur WikiText-2 montrent une dégradation minime par rapport à la base f16.
- Les scores finaux de perplexité étaient de 4.0242 pour f16, 4.0304 pour Q8_0 et 4.0512 pour Q4_0.
Ces mises à jour permettent aux utilisateurs d'exécuter DeepSeek V4 avec une utilisation réduite de la mémoire via des caches quantisés tout en maintenant des performances proches du modèle en pleine précision.