La version b9840 de llama.cpp ajoute le support de DeepSeek V4 et des binaires multi-plateformes

La version b9840 de llama.cpp introduit le support de conversion pour le modèle DeepSeek V4, incluant un traitement spécifique pour la variante Pro. Cette mise à jour intègre la nouvelle architecture dans la bibliothèque avec diverses optimisations internes et corrections de bugs.

Ajout de la conversion dsv4, llm_graph_input_dsv4 et des fonctionnalités de sauvegarde/chargement d'état.
Activation de Flash Attention (FA) avec les mécanismes de remplissage et de réutilisation du graphe nécessaires.
Prise en charge du traitement multi-séquence et des capacités de checkpoint partiel.
Publication de binaires pour macOS, Linux, Android, Windows et openEuler sur CPU, GPU et accélérateurs spécialisés comme ROCm, SYCL et OpenVINO.

Cette version permet aux utilisateurs d'exécuter localement les modèles DeepSeek V4 en utilisant llama.cpp sur une grande variété de configurations matérielles.