github llama.cpp · há 16 d · inference

Lançamento do llama.cpp b9670: Correções e Novas Compilações

Traduzido do English → Português (BR)

O lançamento do llama.cpp b9670 inclui correções para casos de borda NVFP4 no llama-graph, como mover operações MUL pós-GEMM e restringir build_ffn a combinações suportadas. O lançamento fornece binários para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de backend, incluindo CUDA, Vulkan, SYCL e OpenVINO.

Importância 1/3 Confiança 2/3 llama.cpp Code generation Hardware & chips Inference efficiency

Ler original