llama.cpp b9851 रिलीज में CUDA पूर्णांक ट्रंकेशन ठीक किया गया और बाइनरी प्रदान की गई

llama.cpp परियोजना ने संस्करण b9851 जारी किया है, जिसमें flash_attn_mask_to_KV_max kernel में पूर्णांक ट्रंकेशन और ओवरफ्लो त्रुटियों को रोकने के लिए CUDA के लिए एक सुधार शामिल है। यह अपडेट निर्दिष्ट kernel के भीतर KQ मास्क स्टाइड्स से संबंधित समस्याओं को हल करता है।

macOS Apple Silicon (arm64) बाइनरी उपलब्ध हैं, जबकि KleidiAI समर्थन अक्षम है।
Linux बिल्ड में CPU, Vulkan, ROCm 7.2, OpenVINO, और SYCL FP32/FP16 के लिए Ubuntu x64 और arm64 शामिल हैं।
मोबाइल उपकरणों के लिए Android arm64 (CPU) बाइनरी प्रदान की गई है।
Windows रिलीज में CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL, और HIP वेरिएंट शामिल हैं।
x86 और aarch64 आर्किटेक्चर के लिए openEuler बिल्ड सूचीबद्ध हैं, जिनमें से कुछ कॉन्फ़िगरेशन अक्षम हैं।
रिलीज एसेट्स में एक स्टैंडअलोन UI बाइनरी भी शामिल है।

यह रिलीज गणना त्रुटियों को ठीक करके CUDA उपयोगकर्ताओं के लिए स्थिरता सुनिश्चित करती है और प्रमुख ऑपरेटिंग सिस्टम और हार्डवेयर एक्सेलेरेटर पर व्यापक पूर्व-बिल्ड बाइनरी प्रदान करती है।