सभी लेख
github llama.cpp · 12 दिन पहले

ggml ने partition flattening के साथ AMX को अनुकूलित किया

ggml प्रोजेक्ट ने n_batch * M पर partition को flatten करके AMX प्रदर्शन को अनुकूलित किया, यह सुनिश्चित करते हुए कि सभी threads quantization में भाग लें। इस बदलाव से CPU और GPU प्लेटफॉर्म पर विभिन्न मॉडलों और हार्डवेयर कॉन्फ़िगरेशन के across गति 1.47x तक बढ़ी है, जिसमें inference time में स्थिर लाभ दिखाई दे रहे हैं।

github llama.cpp · 12 दिन पहले

GLM-5.2 DSA इंडेक्सर फिक्स: टेन्सर को आवश्यक नहीं के रूप में चिह्नित

GLM-5.2 मॉडल का DSA इंडेक्सर सभी परतों पर गलती से लोड किया गया था, जिससे टेन्सर की कमी के कारण विफलताएं हुईं। अपडेट इंडेक्सर टेन्सर को TENSOR_NOT_REQUIRED के रूप में चिह्नित करता है, जिससे बिना इंडेक्सर वाली परतें nullptr के रूप में लोड हो सकती हैं और पूर्ण MLA एटेंशन सक्षम होता है। समान अनुक्रमण के साथ DeepSeek-V3.2 प्रभावित नहीं है।

github llama.cpp · 12 दिन पहले

s390x के लिए Docker का पूर्व-निर्मित वेब UI

Docker में s390x आर्किटेक्चर के लिए एक पूर्व-निर्मित वेब UI जोड़ने के लिए एक पुल अनुरोध जमा किया गया है। यह परिवर्तन वर्तमान में रिलीज़ की प्रतीक्षा में है और अभी तक प्रकाशित नहीं हुआ है।

github Open Interpreter · 12 दिन पहले

Open Interpreter 0.0.16 जारी

Open Interpreter ने संस्करण 0.0.16 जारी किया है। इस अपडेट में इसके कोर फंक्शनलिटी में नई सुविधाएं और सुधार शामिल हैं, जो उपयोगकर्ता इंटरैक्शन और कार्य निष्पादन क्षमताओं को बढ़ाते हैं।

github Open Interpreter · 12 दिन पहले

Open Interpreter 0.0.17 जारी

Open Interpreter ने संस्करण 0.0.17 जारी किया है। इस अपडेट में इसके कोर फंक्शनलिटी में नई सुविधाएं और सुधार शामिल हैं, जिससे उपयोगकर्ता इंटरैक्शन और कार्य निष्पादन क्षमताओं में वृद्धि हुई है।

github llama.cpp · 12 दिन पहले

LLaMA.cpp ने b9732 जारी किया: नए बाइनरी और अपडेट

LLaMA.cpp ने macOS, Linux, Android, Windows और openEuler के लिए अपडेटेड बाइनरी के साथ संस्करण b9732 जारी किया है। इस रिलीज़ में रिफैक्टर्ड चाइल्ड-टू-राउटर संचार, वकीप हैंडलिंग में सुधार, बेहतर update_status() और दस्तावेज़ीकरण शामिल हैं। नए बिल्ड Vulkan, ROCm, OpenVINO, SYCL और कई आर्किटेक्चर पर CUDA 12/13 का समर्थन करते हैं।

github llama.cpp · 12 दिन पहले

ggml-webgpu ने Vulkan और NVIDIA के लिए F16 एडेप्टर टॉगल जोड़े

ggml-webgpu प्रोजेक्ट ने Vulkan और NVIDIA GPU पर अर्ध-सटीकता (F16) समर्थन के लिए एडेप्टर टॉगल जोड़े हैं। यह अपडेट macOS, Linux, Android, Windows और openEuler सहित कई प्लेटफ़ॉर्म पर संगत हार्डवेयर पर बेहतर प्रदर्शन सक्षम बनाता है, ARM और x64 आर्किटेक्चर के लिए विशिष्ट बिल्ड उपलब्ध हैं।

github llama.cpp · 12 दिन पहले

llama.cpp बर्नच b9731: प्रदर्शन अनुकूलन और क्रॉस-प्लेटफ़ॉर्म बाइनरी

llama.cpp संस्करण b9731 में टोकन सॉर्टिंग ओवरहेड को कम करने के लिए std::partial_sort का उपयोग करके अनुकूलन पेश किया गया है, जिससे top-n टोकन चयन के लिए प्रदर्शन 8.555ms से घटकर 0.704ms हो गया है। इस रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों पर प्रीबिल्ट बाइनरी शामिल हैं।

github llama.cpp · 12 दिन पहले

llama.cpp release b9730: fixes and new binaries

llama.cpp version b9730 में Windows पर UTF-8 हैंडलिंग के लिए सुधार और ggml_fopen और CLI में सुधार शामिल हैं। रिलीज में Vulkan, CUDA, OpenVINO, और SYCL सहित कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों के लिए macOS, Linux, Android, Windows, और openEuler के लिए बाइनरी प्रदान करती है।

github llama.cpp · 12 दिन पहले

LLaMA.cpp ने b9729 जारी किया: नए बाइनरी और प्लेटफ़ॉर्म समर्थन

LLaMA.cpp ने macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर पर b9729 संस्करण जारी किया है। इस रिलीज़ में CPU, Vulkan, OpenVINO, SYCL और ROCm समर्थन शामिल है, साथ ही एक नया UI पैकेज भी है। 'webui' के आंतरिक संदर्भ हटा दिए गए हैं।

github llama.cpp · 12 दिन पहले

LLaMA.cpp Release b9728 में कमेंट लाइन सपोर्ट और मल्टीप्लेटफ़ॉर्म बाइनरीज जोड़ी गईं

LLaMA.cpp संस्करण b9728 ने --api-key-file कॉन्फ़िगरेशन में कमेंट लाइनों के लिए समर्थन पेश किया है। रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों सहित Vulkan, CUDA, OpenVINO और SYCL के लिए प्री-बिल्ट बाइनरीज शामिल हैं।

github llama.cpp · 12 दिन पहले

llama.cpp release b9726 में --agent तर्क और नए प्लेटफ़ॉर्म बाइनरी जोड़े गए

llama.cpp संस्करण b9726 ने एक नया --agent तर्क पेश किया है और अनावश्यक webui नामकरण संगतता को हटा दिया है। इस रिलीज़ में कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों के लिए macOS, Linux, Android, Windows और openEuler के लिए प्रीकंपाइंड बाइनरी शामिल हैं।

github llama.cpp · 12 दिन पहले

llama.cpp बर्नच b9727: cpp-httplib को 0.48.0 पर अपडेट

llama.cpp संस्करण b9727, cpp-httplib को संस्करण 0.48.0 पर अपडेट करता है। रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और Vulkan, CUDA, OpenVINO और SYCL सहित हार्डवेयर एक्सेलरेशन विकल्पों के लिए बाइनरी शामिल हैं।

github llama.cpp · 12 दिन पहले

llama.cpp ने बग फिक्स और क्रॉस-प्लेटफ़ॉर्म बाइनरी के साथ b9724 जारी किया

llama.cpp संस्करण b9724 में कई बग फिक्स और सुधार शामिल हैं, जैसे कि बिल्ड फिक्स, area() फ़ंक्शन में ओवरफ्लो से बचाव, और get_u32() में एक सैनिटी चेक। इस रिलीज़ में macOS (arm64 और x64), Linux (x64, arm64, s390x, Vulkan, ROCm, OpenVINO, SYCL), Android (arm64), Windows (x64, arm64, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) और openEuler (ACL Graph सहायता के साथ x86 और aarch64) के लिए पूर्व-निर्मित बाइनरी, साथ ही एक UI पैकेज प्रदान करता है।

github llama.cpp · 13 दिन पहले

llama.cpp b9723 रिलीज में Qwen3.5, Qwen3.6 और Eagle3 के लिए समर्थन जोड़ा गया

llama.cpp संस्करण b9723 ने Eagle3 के माध्यम से Qwen3.5 और Qwen3.6 मॉडल के लिए समर्थन पेश किया है। इस रिलीज में हाइब्रिड मॉडल के लिए विलंबित बाउंड्री चेकपॉइंट पुनर्स्थापना, और API व नामकरण परंपराओं में अपडेट शामिल हैं। macOS, Linux, Android, Windows, और openEuler प्लेटफ़ॉर्म के लिए बाइनरी बिल्स उपलब्ध हैं, जिनमें CPU, Vulkan, OpenVINO, SYCL, और ROCm के विकल्प शामिल हैं।