llama.cpp की b9827 रिलीज ने ggml_cuda_cpy फ़ंक्शन में cudaMemcpy2DAsync फास्ट पथ जोड़कर CUDA के लिए एक प्रदर्शन ऑप्टिमाइज़ेशन पेश किया है। यह बदलाव उन स्ट्राइडेड कॉपीज को तेज़ करता है जहाँ टेंसर पूरी तरह से कंटिग्यूस नहीं होते लेकिन प्रत्येक पंक्ति कंटिग्यूस होती है, जिसमें धीमे एलिमेंट-वाइज स्केलर कॉपी kernels की जगह लेता है।

  • गैर-कंटिग्यूस टेंसर पर प्रदर्शन सुधारने के लिए CUDA में 2D पिच्ड ब्लॉक कॉपी के लिए फास्ट पथ लागू करता है।
  • rollback slot separation समस्याओं को हल करके -np 4 का उपयोग करते समय GDN रिकरेंट स्नैपशॉट अपडेट्स को ठीक करता है।
  • ऑप्टिमाइज़्ड स्ट्राइडेड कॉपी पथ की पुष्टि करने के लिए नए टेस्ट जोड़ता है।
  • विफल नए टेस्ट के कारण OpenVINO में स्ट्राइडेड कॉपीज के लिए असमर्थित स्थिति लौटाता है।
  • इस रिलीज के लिए macOS Apple Silicon (arm64, KleidiAI सक्षम) बिल्ड्स को निष्क्रिय करता है।

यह अपडेट विशिष्ट टेंसर कॉपी ऑपरेशन के दौरान ओवरहेड कम करके CUDA डिवाइसों पर इनफरेंस दक्षता को बढ़ाता है और GDN रिकरेंट प्रोसेसिंग में स्थिरता समस्याओं को हल करता है।