llama.cpp b9814 avec optimisation Vulkan pour mi50

Le projet llama.cpp a publié la version b9814, qui inclut une optimisation de l'opération `mul_mat_vecq` dans Vulkan ciblant spécifiquement le GPU AMD mi50. Cette mise à jour est accompagnée d'un ensemble complet de binaires précompilés pour plusieurs systèmes d'exploitation et architectures matérielles.

Les versions macOS Apple Silicon (arm64) et Intel (x64) sont disponibles, avec le support KleidiAI désactivé pour Apple Silicon.
Les binaires Linux couvrent Ubuntu x64 et arm64 CPU, Vulkan, ROCm 7.2, OpenVINO, et les variantes SYCL FP32/FP16.
Les versions Windows incluent les backends CPU, OpenCL Adreno, CUDA 12.4 et 13.3, Vulkan, OpenVINO, SYCL, et HIP.
Des builds Android arm64 (CPU) et openEuler x86/aarch64 pour les puces 310p et 910b sont fournis, avec le build standard openEuler x86 désactivé.

Cette version permet aux utilisateurs d'exécuter llama.cpp sur une grande variété de configurations matérielles, incluant des optimisations spécifiques pour les GPU AMD via Vulkan.