github llama.cpp · il y a 16 j · inference

llama.cpp Release b9670 : Corrections et nouvelles versions

Traduit de English → Français

La version llama.cpp b9670 inclut des corrections pour les cas limites NVFP4 dans llama-graph, notamment le déplacement des opérations MUL post-GEMM et la restriction de build_ffn aux combinaisons prises en charge. La version fournit des binaires pour macOS, Linux, Android, Windows et openEuler sur plusieurs architectures et options de backend, y compris CUDA, Vulkan, SYCL et OpenVINO.

Importance 1/3 Confiance 2/3 llama.cpp Code generation Hardware & chips Inference efficiency

Lire l'original