Un développeur a implémenté un noyau CUDA et connecté l'indexeur lightning DSA à llama.cpp, permettant l'inférence locale du modèle DeepSeek V4 Flash avec un contexte complet de 1M de tokens sur du matériel grand public comme la RTX 5090.

  • Le correctif réduit les exigences du tampon de calcul d'environ 67 GiB à 3.2 GiB pour un contexte de 256K et permet l'utilisation d'un contexte de 1M avec seulement 3.75 GiB de VRAM.
  • Les vitesses de préremplissage augmentent considérablement, atteignant environ 263 tok/s à un contexte de 256K par rapport aux 56 tok/s précédents.
  • L'exactitude a été vérifiée à l'aide de tests needle-in-haystack à des profondeurs de 10 %, 50 % et 90 % sur des documents de 100K, 512K et 1M tokens.
  • Les modifications sont disponibles dans une branche personnalisée avec des instructions de compilation, aucun binaire préconstruit n'étant fourni.

Ce travail permet aux utilisateurs d'exécuter DeepSeek V4 Flash à grand contexte localement sans nécessiter des quantités absurdes de VRAM.