github llama.cpp · 16 hari lalu · inference

llama.cpp Release b9670: Perbaikan dan Build Baru

Diterjemahkan dari English → Bahasa Indonesia

Rilis llama.cpp b9670 mencakup perbaikan untuk kasus tepi NVFP4 di llama-graph, seperti memindahkan operasi MUL pasca-GEMM dan membatasi build_ffn ke kombinasi yang didukung. Rilis ini menyediakan biner untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi backend, termasuk CUDA, Vulkan, SYCL, dan OpenVINO.

Kepentingan 1/3 Kepercayaan 2/3 llama.cpp Code generation Hardware & chips Inference efficiency

Baca aslinya