v2.1.185 में Stream-Stall Hint अपडेट किया गया
Stream-stall hint अब "Waiting for API response · will retry in …" प्रदर्शित करता है और 20 सेकंड की मौनता के बाद सक्रिय होता है, जो पिछले संदेश और विलंबता को प्रतिस्थापित करता है।
Stream-stall hint अब "Waiting for API response · will retry in …" प्रदर्शित करता है और 20 सेकंड की मौनता के बाद सक्रिय होता है, जो पिछले संदेश और विलंबता को प्रतिस्थापित करता है।
llama.cpp संस्करण b9741 macOS, Linux, Android, Windows, और openEuler के लिए कई आर्किटेक्चर पर नए बाइनरी पेश करता है। रिलीज में Vulkan, CUDA 12.4 और 13.3, OpenVINO, SYCL, और ROCm के लिए समर्थन शामिल है, साथ ही iOS और Ubuntu के लिए अपडेटेड संस्करण भी हैं।
एक पॅच argv ओवरराइड को केवल तभी लागू करने के लिए संशोधित करके Windows पर test-args-parser में यादृच्छिक विफलताओं को दूर करता है, जब argc मेल खाता है, जिससे प्रोग्रामेटिक आर्ग्युमेंट्स के कबड़ने से रोका जाता है। यह OpenVINO Windows वर्कफ़्लो में एक fastfail assertion को ठीक करता है, जबकि वास्तविक बाइनरीज़ के लिए UTF-8 हैंडलिंग को बनाए रखता है।
LLaMA.cpp version b9739 ने Windows ARM64 के लिए OpenCL Adreno का समर्थन जोड़ा है। इस रिलीज में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और APIs जैसे Vulkan, CUDA, OpenVINO और SYCL के साथ बाइनरी शामिल हैं।
llama.cpp संस्करण b9738 CORS प्रॉक्सी को प्रमाणीकरण हेडर्स को आगे बढ़ाने से रोकने के लिए ठीक करता है। इस रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और Vulkan, CUDA, OpenVINO, और SYCL सहित हार्डवेयर एक्सेलरेशन विकल्पों के लिए बाइनरी बिल्ड्स शामिल हैं।
ggml प्रोजेक्ट ने n_batch * M पर partition को flatten करके AMX प्रदर्शन को अनुकूलित किया, यह सुनिश्चित करते हुए कि सभी threads quantization में भाग लें। इस बदलाव से CPU और GPU प्लेटफॉर्म पर विभिन्न मॉडलों और हार्डवेयर कॉन्फ़िगरेशन के across गति 1.47x तक बढ़ी है, जिसमें inference time में स्थिर लाभ दिखाई दे रहे हैं।
GLM-5.2 मॉडल का DSA इंडेक्सर सभी परतों पर गलती से लोड किया गया था, जिससे टेन्सर की कमी के कारण विफलताएं हुईं। अपडेट इंडेक्सर टेन्सर को TENSOR_NOT_REQUIRED के रूप में चिह्नित करता है, जिससे बिना इंडेक्सर वाली परतें nullptr के रूप में लोड हो सकती हैं और पूर्ण MLA एटेंशन सक्षम होता है। समान अनुक्रमण के साथ DeepSeek-V3.2 प्रभावित नहीं है।
Docker में s390x आर्किटेक्चर के लिए एक पूर्व-निर्मित वेब UI जोड़ने के लिए एक पुल अनुरोध जमा किया गया है। यह परिवर्तन वर्तमान में रिलीज़ की प्रतीक्षा में है और अभी तक प्रकाशित नहीं हुआ है।
LLaMA.cpp ने macOS, Linux, Android, Windows और openEuler के लिए अपडेटेड बाइनरी के साथ संस्करण b9732 जारी किया है। इस रिलीज़ में रिफैक्टर्ड चाइल्ड-टू-राउटर संचार, वकीप हैंडलिंग में सुधार, बेहतर update_status() और दस्तावेज़ीकरण शामिल हैं। नए बिल्ड Vulkan, ROCm, OpenVINO, SYCL और कई आर्किटेक्चर पर CUDA 12/13 का समर्थन करते हैं।
ggml-webgpu प्रोजेक्ट ने Vulkan और NVIDIA GPU पर अर्ध-सटीकता (F16) समर्थन के लिए एडेप्टर टॉगल जोड़े हैं। यह अपडेट macOS, Linux, Android, Windows और openEuler सहित कई प्लेटफ़ॉर्म पर संगत हार्डवेयर पर बेहतर प्रदर्शन सक्षम बनाता है, ARM और x64 आर्किटेक्चर के लिए विशिष्ट बिल्ड उपलब्ध हैं।
llama.cpp संस्करण b9731 में टोकन सॉर्टिंग ओवरहेड को कम करने के लिए std::partial_sort का उपयोग करके अनुकूलन पेश किया गया है, जिससे top-n टोकन चयन के लिए प्रदर्शन 8.555ms से घटकर 0.704ms हो गया है। इस रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों पर प्रीबिल्ट बाइनरी शामिल हैं।
llama.cpp version b9730 में Windows पर UTF-8 हैंडलिंग के लिए सुधार और ggml_fopen और CLI में सुधार शामिल हैं। रिलीज में Vulkan, CUDA, OpenVINO, और SYCL सहित कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों के लिए macOS, Linux, Android, Windows, और openEuler के लिए बाइनरी प्रदान करती है।
LLaMA.cpp ने macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर पर b9729 संस्करण जारी किया है। इस रिलीज़ में CPU, Vulkan, OpenVINO, SYCL और ROCm समर्थन शामिल है, साथ ही एक नया UI पैकेज भी है। 'webui' के आंतरिक संदर्भ हटा दिए गए हैं।
LLaMA.cpp संस्करण b9728 ने --api-key-file कॉन्फ़िगरेशन में कमेंट लाइनों के लिए समर्थन पेश किया है। रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों सहित Vulkan, CUDA, OpenVINO और SYCL के लिए प्री-बिल्ट बाइनरीज शामिल हैं।
llama.cpp संस्करण b9726 ने एक नया --agent तर्क पेश किया है और अनावश्यक webui नामकरण संगतता को हटा दिया है। इस रिलीज़ में कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों के लिए macOS, Linux, Android, Windows और openEuler के लिए प्रीकंपाइंड बाइनरी शामिल हैं।
llama.cpp संस्करण b9727, cpp-httplib को संस्करण 0.48.0 पर अपडेट करता है। रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और Vulkan, CUDA, OpenVINO और SYCL सहित हार्डवेयर एक्सेलरेशन विकल्पों के लिए बाइनरी शामिल हैं।
डॉकर प्रोजेक्ट ने UI घटक को बनाने के लिए समर्थन जोड़ा है। इस अपडेट में कंटेनर कॉन्फ़िगरेशन में मौजूदा APP_VERSION का उपयोग भी शामिल है।
llama.cpp संस्करण b9724 में कई बग फिक्स और सुधार शामिल हैं, जैसे कि बिल्ड फिक्स, area() फ़ंक्शन में ओवरफ्लो से बचाव, और get_u32() में एक सैनिटी चेक। इस रिलीज़ में macOS (arm64 और x64), Linux (x64, arm64, s390x, Vulkan, ROCm, OpenVINO, SYCL), Android (arm64), Windows (x64, arm64, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) और openEuler (ACL Graph सहायता के साथ x86 और aarch64) के लिए पूर्व-निर्मित बाइनरी, साथ ही एक UI पैकेज प्रदान करता है।
llama.cpp संस्करण b9723 ने Eagle3 के माध्यम से Qwen3.5 और Qwen3.6 मॉडल के लिए समर्थन पेश किया है। इस रिलीज में हाइब्रिड मॉडल के लिए विलंबित बाउंड्री चेकपॉइंट पुनर्स्थापना, और API व नामकरण परंपराओं में अपडेट शामिल हैं। macOS, Linux, Android, Windows, और openEuler प्लेटफ़ॉर्म के लिए बाइनरी बिल्स उपलब्ध हैं, जिनमें CPU, Vulkan, OpenVINO, SYCL, और ROCm के विकल्प शामिल हैं।
LLaMA.cpp संस्करण b9722 सर्वर संदर्भ हैंडलिंग में n_discard मान की गैर-बाउंड समस्या को ठीक करता है। इस रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए प्रीकंपाइल्ड बाइनरी शामिल हैं, जो विभिन्न आर्किटेक्चर और Vulkan, CUDA, OpenVINO और SYCL जैसे एक्सेलरेशन फ्रेमवर्क्स का समर्थन करती हैं।