llama.cpp b9828 रिलीज़: OpenCL Flash Attention में सुधार और नए बाइनरी

llama.cpp की b9828 रिलीज़ ने महत्वपूर्ण OpenCL बढ़तों को पेश किया, विशेष रूप से f16 और f32 प्रिसिजन के लिए Flash Attention kernels को फिर से डिजाइन किया। इस अपडेट में नए prefill prepass kernels और q4_0 व q8_0 क्वांटीज़ेशन फॉर्मेट्स के लिए समर्थन शामिल है।

f16 और f32 के लिए FA kernel को फिर से डिजाइन किया गया, जिसमें ऑप्टिमाइज्ड टाइल पैडिंग और मस्किंग लॉजिक शामिल है।
q4_0 और q8_0 क्वांटीज़ेशन के लिए FA kernels जोड़े गए, जिनमें dequant kernels और SOA tensor समर्थन शामिल हैं।
एक FA टाइल ट्यूनिंग टेबल पेश की गई जिसमें ओवरराइड क्षमताएं हैं और -cl-finite-math-only के लिए अनंत (infinity) हैंडलिंग को ठीक किया गया।
macOS (Apple Silicon/Intel), Linux (CPU/Vulkan/ROCm/OpenVINO/SYCL), Windows (CPU/CUDA/Vulkan/HIP/OpenVINO/SYCL), Android, और openEuler के लिए प्री-बिल्ट बाइनरी उपलब्ध कराए गए।

इस रिलीज़ ने OpenCL-कम्पैटिबल हार्डवेयर पर अधिक कुशल इनफरेंस को सक्षम बनाया है, जो मेमोरी एक्सेस पैटर्न को ऑप्टिमाइज करके और अतिरिक्त क्वांटीज़ेशन प्रकारों का समर्थन करके किया गया है।