llama.cpp प्रोजेक्ट ने संस्करण b9856 जारी किया है, जिसमें CUDA में Flash Attention के लिए `restrict` कीवर्ड और PDL का सुसंगत उपयोग शामिल है। इस अपडेट के साथ विभिन्न हार्डवेयर बैकएंड्स पर macOS, Linux, Android, Windows और openEuler के लिए पूर्व-निर्मित बाइनरीज़ भी उपलब्ध हैं।
- macOS Apple Silicon (arm64) बिल्स उपलब्ध हैं, जबकि KleidiAI समर्थन अक्षम बना हुआ है।
- Linux बाइनरीज़ CPU (x64, arm64, s390x), Vulkan, ROCm 7.2, OpenVINO और SYCL FP32/FP16 को कवर करते हैं।
- Windows रिलीज़ में CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL और HIP शामिल हैं।
- इस रिलीज़ के लिए Android arm64 (CPU) और UI बाइनरीज़ भी प्रदान किए गए हैं।