La version b9699 de llama.cpp introduit le support des opérations MUL_MAT et OUT_PROD avec la précision Q1_0 via la PR #24721. La release inclut des binaires précompilés pour macOS, Linux, Android, Windows et openEuler sur plusieurs architectures et frameworks d'accélération, dont SYCL (FP32 et FP16), Vulkan, CUDA, ROCm et OpenVINO.