DeepSeek V4 Flash fonctionne sur RTX 5090 avec un contexte de 1M via un fork de llama.cpp

Un utilisateur a réussi à optimiser le modèle DeepSeek V4 Flash pour qu'il fonctionne sur une NVIDIA GeForce RTX 5090 en utilisant un fork spécifique de llama.cpp. La configuration prend en charge une fenêtre de contexte de 1 million de tokens tout en conservant une marge de VRAM.

Les résultats des benchmarks montrent que le débit de génération de tokens (TG) passe de 22,7 à 21,3 tokens/seconde et que le débit de traitement des prompts (PP) diminue de 1105 à 927 tokens/seconde.
La configuration utilise un modèle GGUF quantisé en Q2_K, MoE sans cache KV unifié, et définit n-cpu-moe à 37.
L'utilisateur a atteint une taille de contexte de 1 million en utilisant une taille non groupée (ub) de 512, ce qui s'inscrit dans les contraintes mémoire de la RTX 5090.
L'optimisation a nécessité un fork personnalisé de llama.cpp de l'utilisateur GitHub fairydreaming et des indicateurs de compilation CMake spécifiques pour l'architecture CUDA 120.

Cette configuration démontre que DeepSeek V4 Flash peut fonctionner avec des fenêtres de contexte massives sur du matériel grand public, bien qu'avec un débit réduit par rapport aux métriques de base.