llama.cpp b9827 रिलीज में CUDA 2D async copy ऑप्टिमाइज़ेशन जोड़ा गया

llama.cpp की b9827 रिलीज ने ggml_cuda_cpy फ़ंक्शन में cudaMemcpy2DAsync फास्ट पथ जोड़कर CUDA के लिए एक प्रदर्शन ऑप्टिमाइज़ेशन पेश किया है। यह बदलाव उन स्ट्राइडेड कॉपीज को तेज़ करता है जहाँ टेंसर पूरी तरह से कंटिग्यूस नहीं होते लेकिन प्रत्येक पंक्ति कंटिग्यूस होती है, जिसमें धीमे एलिमेंट-वाइज स्केलर कॉपी kernels की जगह लेता है।

गैर-कंटिग्यूस टेंसर पर प्रदर्शन सुधारने के लिए CUDA में 2D पिच्ड ब्लॉक कॉपी के लिए फास्ट पथ लागू करता है।
rollback slot separation समस्याओं को हल करके -np 4 का उपयोग करते समय GDN रिकरेंट स्नैपशॉट अपडेट्स को ठीक करता है।
ऑप्टिमाइज़्ड स्ट्राइडेड कॉपी पथ की पुष्टि करने के लिए नए टेस्ट जोड़ता है।
विफल नए टेस्ट के कारण OpenVINO में स्ट्राइडेड कॉपीज के लिए असमर्थित स्थिति लौटाता है।
इस रिलीज के लिए macOS Apple Silicon (arm64, KleidiAI सक्षम) बिल्ड्स को निष्क्रिय करता है।

यह अपडेट विशिष्ट टेंसर कॉपी ऑपरेशन के दौरान ओवरहेड कम करके CUDA डिवाइसों पर इनफरेंस दक्षता को बढ़ाता है और GDN रिकरेंट प्रोसेसिंग में स्थिरता समस्याओं को हल करता है।