Le correctif llama.cpp active DeepSeek V4 Flash avec un contexte de 1M sur RTX 5090

Un développeur a implémenté un noyau CUDA et connecté l'indexeur lightning DSA à llama.cpp, permettant l'inférence locale du modèle DeepSeek V4 Flash avec un contexte complet de 1M de tokens sur du matériel grand public comme la RTX 5090.

Le correctif réduit les exigences du tampon de calcul d'environ 67 GiB à 3.2 GiB pour un contexte de 256K et permet l'utilisation d'un contexte de 1M avec seulement 3.75 GiB de VRAM.
Les vitesses de préremplissage augmentent considérablement, atteignant environ 263 tok/s à un contexte de 256K par rapport aux 56 tok/s précédents.
L'exactitude a été vérifiée à l'aide de tests needle-in-haystack à des profondeurs de 10 %, 50 % et 90 % sur des documents de 100K, 512K et 1M tokens.
Les modifications sont disponibles dans une branche personnalisée avec des instructions de compilation, aucun binaire préconstruit n'étant fourni.

Ce travail permet aux utilisateurs d'exécuter DeepSeek V4 Flash à grand contexte localement sans nécessiter des quantités absurdes de VRAM.