llama.cpp b9820 रिलीज: कम CUDA सिंक और नए बाइनरी

llama.cpp b9820 रिलीज ने स्प्लिट कंप्यूट के दौरान कम सिंक्रनाइज़ेशन को पुनः पेश करके प्रदर्शन में सुधार लाया, विशेष रूप से CUDA बैकएंड्स को लक्षित करते हुए। यह अपडेट CPU, GPU और विशेष हार्डवेयर एक्सेलेरेटर के लिए macOS, Linux, Windows, Android और openEuler पर पूर्व-बिल्ड बाइनरी भी प्रदान करता है।

टोकन के बीच कम सिंक्रनाइज़ेशन के माध्यम से CUDA प्रदर्शन में सुधार।
ggml_backend_cuda_cpy_tensor_async() में CPU-to-CUDA कॉपी क्षमता जोड़ी गई।
CUDA जैसे समर्थित बैकएंड्स पर इनपुट कॉपी के बीच सिंक आवश्यकताओं को ढीला किया गया।
सिंक्रोनस कॉपी को एसेंक कॉपी फ़ंक्शन से बदला गया और non-CUDA बिल्ड्स के लिए मैक्रो गार्ड जोड़े गए।
ggml-backend.cpp में बैकएंड डिटेक्शन को पुनः व्यवस्थित किया गया ताकि लिंकिंग संघर्षों से बचा जा सके।
मल्टी-GPU सेटिंग्स में सिंगल-GPU सिंक्रनाइज़ेशन जोड़कर hip बैकएंड पाइपलाइन पैरेलल बग ठीक किए गए।
एक सावधानी उपाय के रूप पर होस्ट CPU स्प्लिट को GPU स्प्लिट ऑप्टिमाइजेशन से hip/MUSA को बाहर रखा गया।

रिलीज ने अनुकूलित एसेंक ऑपरेशन्स के माध्यम से CUDA डिवाइसों पर तेज़ इनफरेंस सक्षम बनाया है, जबकि विभिन्न ऑपरेटिंग सिस्टम और हार्डवेयर बैकएंड्स के साथ संगतता बनाए रखी गई है।