Mises à jour de performance de DeepSeek V4 Pro dans llama.cpp

Un utilisateur signale une augmentation des performances pour DeepSeek V4 Pro exécuté localement via une branche personnalisée de llama.cpp contenant divers correctifs et optimisations. L'article partage les résultats de tests de référence d'un système Epyc 9374F avec RTX PRO 6000 Max-Q, notant que l'utilisation mémoire du modèle reste élevée dans les versions principales.

Les tests de référence ont été effectués en utilisant un fichier GGUF de 794 Go sur un matériel équipé de 12 x 96 Go de RAM DDR5 et de 96 Go de VRAM.
La branche personnalisée résout les problèmes de consommation excessive de mémoire causés par les tampons de calcul de l'indexeur lightning et les tampons temporaires top-k CUDA.
llama.cpp en version principale a actuellement un support KV cache quantisé cassé et des bugs potentiels concernant la réutilisation du cache de prompts et la préparation des lots.

L'auteur souligne que bien que ses optimisations spécifiques améliorent la vitesse, les utilisateurs dépendant de llama.cpp en version principale peuvent rencontrer une surcharge mémoire significative et des bugs fonctionnels.