सभी लेख
media r/LocalLLaMA · अभी अभी लाइव

DGX Spark और Strix Halo के साथ disaggregated prompt प्रोसेसिंग

एक उपयोगकर्ता DGX Spark का उपयोग prefilling के लिए और Strix Halo बॉक्स का उपयोग token जनरेशन के लिए करके एक disaggregated inference pipeline का प्रदर्शन करता है, लंबे-संदर्भ कार्यभारों के लिए महत्वपूर्ण गति वृद्धि हासिल करता है। DGX पर कंप्यूटेशनली इंटेंसिव prompt प्रोसेसिंग को offload करके और decoding के लिए Strix की मेमोरी बैंडविड्थ का लाभ उठाकर, सेटअप Strix पर अकेले चलते समय देखी गई प्रदर्शन ह्रास को दूर करता है।

blog Simon Willison · 6 घंटे पहले

शामिल होने के लिए समझना

जेफ्री लिट का तर्क है कि डेवलपर्स को कोगनिटिव ऋण से बचने और रचनात्मक प्रक्रिया में सक्रिय भागीदार बने रहने के लिए कोडिंग एजेंट्स द्वारा उत्पन्न कोड को गहराई से समझना चाहिए।

media r/LocalLLaMA · 6 घंटे पहले

OpenLumara अब OpenAI एंडपॉइंट के माध्यम से किसी भी UI को स्थानीय मॉडल से जोड़ता है

ओपन सोर्स फ्रेमवर्क OpenLumara अब उस किसी भी यूजर इंटरफ़ेस से कनेक्शन का समर्थन करता है जो एक OpenAI एंडपॉइंट के साथ संवाद कर सकता है, जैसे कि KoboldLite और OpenWebUI। यह अपडेट उपयोगकर्ताओं को अपने पसंदीदा फ्रंटएंड को बदले बिना टोकन-कुशल हैंरेस को अपने मौजूदा वर्कफ़्लो में एकीकृत करने की अनुमति देता है।

media r/LocalLLaMA · 8 घंटे पहले

डुअल R9700: Qwen3.6 27B के लिए सर्वोत्तम सूत्र?

एक उपयोगकर्ता llama.cpp का उपयोग करके डुअल AMD Radeon R9700 सेटअप पर Qwen3.6-27B मॉडल को अनुकूलित करने की जांच कर रहा है, Vulkan और ROCm बैकएंड्स के बीच प्रदर्शन की तुलना कर रहा है।

media r/LocalLLaMA · 8 घंटे पहले

Gemma 4 WebGPU Kernels ने 255 tok/s हासिल किया

Xenova ने Gemma 4 के लिए WebGPU kernels जारी किए हैं, जिसमें 255 tokens per second की प्रदर्शन क्षमता प्राप्त हुई है। यह अनुकूलन घने मॉडलों को वेब ब्राउज़र में 100 tok/s से अधिक गति पर चलाने सक्षम बनाता है।

media r/LocalLLaMA · 13 घंटे पहले

Copywriting के लिए Fine-tuned Gemma-4-31B ने EqBench3 पर +290 Elo स्कोर हासिल किया

एक उपयोगकर्ता ने कॉपीराइटिंग और क्रिएटिव राइटिंग कार्यों के लिए विशेष रूप से अनुकूलित, Gemma-4-31B-it मॉडल की एक संकीर्ण फाइन-ट्यून जारी की है। इस मॉडल को सामान्य मार्केटिंग क्लिश्‍यों को समाप्त करने और ठोस विवरणों और सटीक एक्शन कॉल्स द्वारा विशेषता डायरेक्ट-रिस्पॉन्स शैली अपनाने के लिए प्रशिक्षित किया गया है।

github llama.cpp · 16 घंटे पहले

llama.cpp b9860 रिलीज़ में llama_ftype_name API जोड़ा गया

llama.cpp प्रोजेक्ट ने संस्करण b9860 जारी किया है, जिसमें `llama_ftype_name` नामक एक नई सार्वजनिक C API फ़ंक्शन पेश की गई है जो मॉडल फ़ाइल प्रकार (क्वांटीज़ेशन) नाम को प्रदर्शित करती है।

media r/LocalLLaMA · 16 घंटे पहले

एजेंट्स LLMs के लिए RL पर एक विशाल विकी सहयोगात्मक रूप से लिख रहे हैं (अब तक 200+ पेपर) और कोई भी शामिल हो सकता है

एक सहयोगात्मक परियोजना चल रही है जहां AI एजेंट्स बड़े भाषा मॉडल्स के लिए पुनर्बल सीखने पर एक व्यापक विकी तैयार कर रहे हैं, जिसमें पहले से ही 200 से अधिक शोध पत्रों को संसाधित किया जा चुका है।

media r/LocalLLaMA · 16 घंटे पहले

ओपन सोर्स डेवलपर्स के लिए सराहना का आह्वान करने वाला रेडिट पोस्ट

एक रेडिट उपयोगकर्ता ओपन-सोर्स योगदानकर्ताओं के प्रति कृतज्ञता की महत्वपूर्ण आवश्यकता को उजागर करते हुए, समुदाय प्रयास का एक उत्कृष्ट उदाहरण के रूप में vLLM के हालिया तेज़ अपडेट का हवाला देते हैं।

media r/LocalLLaMA · 16 घंटे पहले

Gemma 4 31b को फिर से बनाना... बेहतर... 26b के रूप में...

एक डेवलपर ने Gemma 4 31B मॉडल को पुनर्निर्माण करने की योजना का विवरण दिया है, जिसमें पैरामीटर की संख्या को लगभग 26B तक कम किया जाएगा, जबकि प्रदर्शन में सुधार का लक्ष्य रखा गया है। इस परियोजना में वास्तुकला में बदलाव, विशिष्ट प्रशिक्षण तकनीकों और डेटासेट चयन शामिल हैं ताकि एक छोटा और अधिक कुशल मॉडल बनाया जा सके।

media r/LocalLLaMA · 17 घंटे पहले

रेडिट उपयोगकर्ता पूछता है कि क्या उबंटु स्थानीय एआई के लिए सबसे संगत लिनक्स डिस्ट्रो है

r/LocalLLaMA समुदाय में एक रेडिट उपयोगकर्ता लिनक्स पर स्विच कर रहा है और यह पुष्टि चाहता है कि क्या उबंटु स्थानीय एआई वर्कलोड चलाने के लिए सर्वोत्तम संगतता प्रदान करता है।

media Hugging Face Forums · 17 घंटे पहले

वेबसाइट डाउनलोड पर Unicode अक्षर समर्थन

Hugging Face वेबसाइट डाटासेट से व्यक्तिगत फ़ाइलें डाउनलोड करते समय, चाहे डाउनलोड बटन के माध्यम से हो या resolve URL के माध्यम से, Unicode अक्षरों को उचित रूप से एन्कोड नहीं कर पाती है।

media Hugging Face Forums · 17 घंटे पहले

क्या LLM एजेंट्स पूर्वदृष्टि विकसित कर सकते हैं?

लेख में तर्क दिया गया है कि वर्तमान LLM एजेंट अक्सर निहित परिणाम जागरूकता के साथ कार्य करते हैं, जो परिणामकारी कार्यों के लिए अपर्याप्त है। यह निष्पादन से पहले जोखिमों को मॉडल करने और प्रभावों की भविष्यवाणी सुनिश्चित करने के लिए एक आवश्यक आर्किटेक्चर परत के रूप में "स्पष्ट पूर्वदृष्टि" का प्रस्ताव देता है।

media Hugging Face Forums · 17 घंटे पहले

ग्राहक सहायता एजेंटों के लिए कौन सा ओपन-सोर्स मॉडल सबसे अच्छा प्रदर्शन करता है?

Hugging Face फोरम पर एक उपयोगकर्ता पूछ रहा है कि AI ग्राहक सहायता चैटबॉट या वर्चुअल असिस्टेंट बनाने के लिए मुफ्त AI मॉडल का सबसे अच्छा विकल्प कौन सा है। पोस्ट में कोई विशिष्ट मॉडल तुलना, परीक्षण परिणाम, या तकनीकी विवरण नहीं हैं।

media Hugging Face Forums · 17 घंटे पहले

Hugging Face में मॉडल्स के लिए डाउनलोड काउंटर त्रुटि

Hugging Face समुदाय फोरम पर एक उपयोगकर्ता ने रिपोर्ट की कि उनके मॉडल रिपॉजिटरी, InternScience/Agents-A1-FP8, के लिए डाउनलोड सांख्यिकी दो दिन पहले अपलोड किए जाने के बावजूद शून्य पर बनी हुई है। उपयोगकर्ता ने नोट किया है कि रिपॉजिटरी में एक config.json फ़ाइल शामिल है और संदेह है कि कोई तकनीकी समस्या काउंटर को अपडेट करने से रोक रही है।

media Hugging Face Forums · 17 घंटे पहले

उपयोगकर्ताओं ने Hugging Face बिलिंग सहायता से प्रतिक्रिया में देरी की रिपोर्ट की

Hugging Face चर्चा मंच पर एक उपयोगकर्ता ने रिपोर्ट की है कि अनधिकृत सदस्यता के संबंध में उनकी बिलिंग सहायता को ईमेल का कोई उत्तर नहीं मिला। व्यक्ति यादृच्छिक शुल्क के लिए रिफंड की तलाश कर रहा है और संपर्क करने के बावजूद संचार की कमी पर ध्यान दिलाता है।

media Hugging Face Forums · 17 घंटे पहले

डेटासेट डेल्टा का पता लगाने और प्राप्त करने के लिए सर्वोत्तम अभ्यास

Hugging Face फोरम पर एक उपयोगकर्ता नए डेटा के जुड़ने या डेटासेट अपडेट होने का पता लगाने के लिए कुशल तरीकों की मांग करता है, पूरे डेटासेट को फिर से प्रोसेस किए बिना पाइपलाइन को ट्रिगर करने के उद्देश्य से।

media r/LocalLLaMA · 17 घंटे पहले

PrismML का 1-bit Bonsai-8B व्याकरण के साथ CPU पर टूल कॉलिंग में IBM Granite को हराता है

IBM Granite और अन्य LLMs के खिलाफ PrismML के 1-bit Bonsai-8B मॉडल का एक बेंचमार्क यह दर्शाता है कि व्याकरण-बाध्यकारी डिकोडिंग का उपयोग करते समय Bonsai-8B टूल कॉलिंग में उच्चतम सटीकता प्राप्त करता है। परीक्षण, llama.cpp का उपयोग करके CPU पर किया गया, आउटपुट बाधाओं के महत्वपूर्ण भूमिका को उजागर करता है जो छोटे, क्वांटाइज्ड मॉडलों को एजेंट कार्यों के लिए प्रभावी ढंग से काम करने की अनुमति देता है।