llama.cpp версия b9699 вводит поддержку операций MUL_MAT и OUT_PROD с точностью Q1_0 через PR #24721. В релиз включены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler для нескольких архитектур и фреймворков ускорения, включая SYCL (FP32 и FP16), Vulkan, CUDA, ROCm и OpenVINO.