सभी लेख
github llama.cpp · 11 दिन पहले

Windows पर test-args-parser के यादृच्छिक विफलताओं के लिए समाधान

एक पॅच argv ओवरराइड को केवल तभी लागू करने के लिए संशोधित करके Windows पर test-args-parser में यादृच्छिक विफलताओं को दूर करता है, जब argc मेल खाता है, जिससे प्रोग्रामेटिक आर्ग्युमेंट्स के कबड़ने से रोका जाता है। यह OpenVINO Windows वर्कफ़्लो में एक fastfail assertion को ठीक करता है, जबकि वास्तविक बाइनरीज़ के लिए UTF-8 हैंडलिंग को बनाए रखता है।

github llama.cpp · 11 दिन पहले

LLaMA.cpp Release b9739 में Win OpenCL Adreno ARM64 सपोर्ट जोड़ा गया

LLaMA.cpp version b9739 ने Windows ARM64 के लिए OpenCL Adreno का समर्थन जोड़ा है। इस रिलीज में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और APIs जैसे Vulkan, CUDA, OpenVINO और SYCL के साथ बाइनरी शामिल हैं।

github llama.cpp · 11 दिन पहले

llama.cpp रिलीज़ b9738: CORS auth हेडर फॉरवर्डिंग में सुधार और नए बाइनरी बिल्ड्स

llama.cpp संस्करण b9738 CORS प्रॉक्सी को प्रमाणीकरण हेडर्स को आगे बढ़ाने से रोकने के लिए ठीक करता है। इस रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और Vulkan, CUDA, OpenVINO, और SYCL सहित हार्डवेयर एक्सेलरेशन विकल्पों के लिए बाइनरी बिल्ड्स शामिल हैं।

github llama.cpp · 11 दिन पहले

ggml ने partition flattening के साथ AMX को अनुकूलित किया

ggml प्रोजेक्ट ने n_batch * M पर partition को flatten करके AMX प्रदर्शन को अनुकूलित किया, यह सुनिश्चित करते हुए कि सभी threads quantization में भाग लें। इस बदलाव से CPU और GPU प्लेटफॉर्म पर विभिन्न मॉडलों और हार्डवेयर कॉन्फ़िगरेशन के across गति 1.47x तक बढ़ी है, जिसमें inference time में स्थिर लाभ दिखाई दे रहे हैं।

github llama.cpp · 11 दिन पहले

GLM-5.2 DSA इंडेक्सर फिक्स: टेन्सर को आवश्यक नहीं के रूप में चिह्नित

GLM-5.2 मॉडल का DSA इंडेक्सर सभी परतों पर गलती से लोड किया गया था, जिससे टेन्सर की कमी के कारण विफलताएं हुईं। अपडेट इंडेक्सर टेन्सर को TENSOR_NOT_REQUIRED के रूप में चिह्नित करता है, जिससे बिना इंडेक्सर वाली परतें nullptr के रूप में लोड हो सकती हैं और पूर्ण MLA एटेंशन सक्षम होता है। समान अनुक्रमण के साथ DeepSeek-V3.2 प्रभावित नहीं है।

github llama.cpp · 11 दिन पहले

s390x के लिए Docker का पूर्व-निर्मित वेब UI

Docker में s390x आर्किटेक्चर के लिए एक पूर्व-निर्मित वेब UI जोड़ने के लिए एक पुल अनुरोध जमा किया गया है। यह परिवर्तन वर्तमान में रिलीज़ की प्रतीक्षा में है और अभी तक प्रकाशित नहीं हुआ है।

github llama.cpp · 12 दिन पहले

LLaMA.cpp ने b9732 जारी किया: नए बाइनरी और अपडेट

LLaMA.cpp ने macOS, Linux, Android, Windows और openEuler के लिए अपडेटेड बाइनरी के साथ संस्करण b9732 जारी किया है। इस रिलीज़ में रिफैक्टर्ड चाइल्ड-टू-राउटर संचार, वकीप हैंडलिंग में सुधार, बेहतर update_status() और दस्तावेज़ीकरण शामिल हैं। नए बिल्ड Vulkan, ROCm, OpenVINO, SYCL और कई आर्किटेक्चर पर CUDA 12/13 का समर्थन करते हैं।

github llama.cpp · 12 दिन पहले

ggml-webgpu ने Vulkan और NVIDIA के लिए F16 एडेप्टर टॉगल जोड़े

ggml-webgpu प्रोजेक्ट ने Vulkan और NVIDIA GPU पर अर्ध-सटीकता (F16) समर्थन के लिए एडेप्टर टॉगल जोड़े हैं। यह अपडेट macOS, Linux, Android, Windows और openEuler सहित कई प्लेटफ़ॉर्म पर संगत हार्डवेयर पर बेहतर प्रदर्शन सक्षम बनाता है, ARM और x64 आर्किटेक्चर के लिए विशिष्ट बिल्ड उपलब्ध हैं।

github llama.cpp · 12 दिन पहले

llama.cpp बर्नच b9731: प्रदर्शन अनुकूलन और क्रॉस-प्लेटफ़ॉर्म बाइनरी

llama.cpp संस्करण b9731 में टोकन सॉर्टिंग ओवरहेड को कम करने के लिए std::partial_sort का उपयोग करके अनुकूलन पेश किया गया है, जिससे top-n टोकन चयन के लिए प्रदर्शन 8.555ms से घटकर 0.704ms हो गया है। इस रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों पर प्रीबिल्ट बाइनरी शामिल हैं।

github llama.cpp · 12 दिन पहले

llama.cpp release b9730: fixes and new binaries

llama.cpp version b9730 में Windows पर UTF-8 हैंडलिंग के लिए सुधार और ggml_fopen और CLI में सुधार शामिल हैं। रिलीज में Vulkan, CUDA, OpenVINO, और SYCL सहित कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों के लिए macOS, Linux, Android, Windows, और openEuler के लिए बाइनरी प्रदान करती है।

github llama.cpp · 12 दिन पहले

LLaMA.cpp ने b9729 जारी किया: नए बाइनरी और प्लेटफ़ॉर्म समर्थन

LLaMA.cpp ने macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर पर b9729 संस्करण जारी किया है। इस रिलीज़ में CPU, Vulkan, OpenVINO, SYCL और ROCm समर्थन शामिल है, साथ ही एक नया UI पैकेज भी है। 'webui' के आंतरिक संदर्भ हटा दिए गए हैं।

github llama.cpp · 12 दिन पहले

LLaMA.cpp Release b9728 में कमेंट लाइन सपोर्ट और मल्टीप्लेटफ़ॉर्म बाइनरीज जोड़ी गईं

LLaMA.cpp संस्करण b9728 ने --api-key-file कॉन्फ़िगरेशन में कमेंट लाइनों के लिए समर्थन पेश किया है। रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों सहित Vulkan, CUDA, OpenVINO और SYCL के लिए प्री-बिल्ट बाइनरीज शामिल हैं।

github llama.cpp · 12 दिन पहले

llama.cpp release b9726 में --agent तर्क और नए प्लेटफ़ॉर्म बाइनरी जोड़े गए

llama.cpp संस्करण b9726 ने एक नया --agent तर्क पेश किया है और अनावश्यक webui नामकरण संगतता को हटा दिया है। इस रिलीज़ में कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों के लिए macOS, Linux, Android, Windows और openEuler के लिए प्रीकंपाइंड बाइनरी शामिल हैं।

github llama.cpp · 12 दिन पहले

llama.cpp बर्नच b9727: cpp-httplib को 0.48.0 पर अपडेट

llama.cpp संस्करण b9727, cpp-httplib को संस्करण 0.48.0 पर अपडेट करता है। रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और Vulkan, CUDA, OpenVINO और SYCL सहित हार्डवेयर एक्सेलरेशन विकल्पों के लिए बाइनरी शामिल हैं।

github llama.cpp · 12 दिन पहले

llama.cpp ने बग फिक्स और क्रॉस-प्लेटफ़ॉर्म बाइनरी के साथ b9724 जारी किया

llama.cpp संस्करण b9724 में कई बग फिक्स और सुधार शामिल हैं, जैसे कि बिल्ड फिक्स, area() फ़ंक्शन में ओवरफ्लो से बचाव, और get_u32() में एक सैनिटी चेक। इस रिलीज़ में macOS (arm64 और x64), Linux (x64, arm64, s390x, Vulkan, ROCm, OpenVINO, SYCL), Android (arm64), Windows (x64, arm64, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) और openEuler (ACL Graph सहायता के साथ x86 और aarch64) के लिए पूर्व-निर्मित बाइनरी, साथ ही एक UI पैकेज प्रदान करता है।

github llama.cpp · 12 दिन पहले

llama.cpp b9723 रिलीज में Qwen3.5, Qwen3.6 और Eagle3 के लिए समर्थन जोड़ा गया

llama.cpp संस्करण b9723 ने Eagle3 के माध्यम से Qwen3.5 और Qwen3.6 मॉडल के लिए समर्थन पेश किया है। इस रिलीज में हाइब्रिड मॉडल के लिए विलंबित बाउंड्री चेकपॉइंट पुनर्स्थापना, और API व नामकरण परंपराओं में अपडेट शामिल हैं। macOS, Linux, Android, Windows, और openEuler प्लेटफ़ॉर्म के लिए बाइनरी बिल्स उपलब्ध हैं, जिनमें CPU, Vulkan, OpenVINO, SYCL, और ROCm के विकल्प शामिल हैं।

github llama.cpp · 12 दिन पहले

LLaMA.cpp ने b9722 जारी किया: सुधार और क्रॉस-प्लेटफ़ॉर्म बाइनरी

LLaMA.cpp संस्करण b9722 सर्वर संदर्भ हैंडलिंग में n_discard मान की गैर-बाउंड समस्या को ठीक करता है। इस रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए प्रीकंपाइल्ड बाइनरी शामिल हैं, जो विभिन्न आर्किटेक्चर और Vulkan, CUDA, OpenVINO और SYCL जैसे एक्सेलरेशन फ्रेमवर्क्स का समर्थन करती हैं।

github llama.cpp · 12 दिन पहले

llama.cpp रिलीज़ b9718: सॉट चयन को एकीकृत किया गया और नए बाइनरी बिल्ड्स

llama.cpp संस्करण b9718 में सॉट चयन को get_available_slot नामक एकल फ़ंक्शन में एकीकृत किया गया है, जबकि प्रॉम्प्ट कैश अपडेट के लिए LCP समानता जांच बनाए रखी गई है। इस रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों के साथ बाइनरी बिल्ड्स शामिल हैं।

github llama.cpp · 12 दिन पहले

llama.cpp b9721 रिलीज कई प्लेटफॉर्म के लिए उपलब्ध

llama.cpp ने b9721 संस्करण जारी किया है, जिसमें विभिन्न आर्किटेक्चर के लिए macOS, Linux, Android, Windows और openEuler के लिए बाइनरी शामिल हैं। इस रिलीज में CPU, Vulkan, ROCm, OpenVINO, SYCL और HIP समर्थन शामिल है, जिसमें एक समर्पित UI पैकेज भी है। KleidiAI के साथ Apple Silicon के लिए एक सुविधा वर्तमान में अक्षम है।