llama.cpp b9828 रिलीज़: OpenCL Flash Attention में सुधार और नए बाइनरी
llama.cpp की b9828 रिलीज़ ने महत्वपूर्ण OpenCL बढ़तों को पेश किया, विशेष रूप से f16 और f32 प्रिसिजन के लिए Flash Attention kernels को फिर से डिजाइन किया। इस अपडेट में नए prefill prepass kernels और q4_0 व q8_0 क्वांटीज़ेशन फॉर्मेट्स के लिए समर्थन शामिल है।