सभी लेख
media r/LocalLLaMA · 4 घंटे पहले

DGX Spark और Strix Halo के साथ disaggregated prompt प्रोसेसिंग

एक उपयोगकर्ता DGX Spark का उपयोग prefilling के लिए और Strix Halo बॉक्स का उपयोग token जनरेशन के लिए करके एक disaggregated inference pipeline का प्रदर्शन करता है, लंबे-संदर्भ कार्यभारों के लिए महत्वपूर्ण गति वृद्धि हासिल करता है। DGX पर कंप्यूटेशनली इंटेंसिव prompt प्रोसेसिंग को offload करके और decoding के लिए Strix की मेमोरी बैंडविड्थ का लाभ उठाकर, सेटअप Strix पर अकेले चलते समय देखी गई प्रदर्शन ह्रास को दूर करता है।

arxiv arXiv cs.CL · 7 घंटे पहले

क्या LLMs के साथ सामाजिक सिमुलेशन को स्केलिंग से सुधार मिलेगा?

यह अध्ययन जांचता है कि वर्तमान भाषा मॉडल स्केलिंग पैराडाइम क्या राय मॉडलिंग, व्यवहारिक सिमुलेशन और दीर्घकालिक पूर्वानुमान में सामाजिक सिमुलेशन के विश्वसनीयता अंतर को बंद कर सकते हैं। $10^{18}$ से $10^{20}$ FLOPs तक स्थिर-कंप्यूट बजट के तहत DCLM कॉर्पस पर प्रशिक्षित 85 Qwen3 ट्रान्सफॉर्मर मॉडल का उपयोग करते हुए, लेखक कंप्यूट स्केल और सिमुलेशन सटीकता के बीच संबंध का विश्लेषण करते हैं।

arxiv arXiv cs.CL · 7 घंटे पहले

TestEvo-Bench: टेस्ट और कोड सह-विकास के लिए एक एक्जीक्यूटेबल और लाइव बेंचमार्क

लेखकों ने TestEvo-Bench पेश किया है, जो एक लाइव बेंचमार्क है जिसे कोड और टेस्ट की सह-विकास को कैसे संभालते हैं, इसका मूल्यांकन करने के लिए डिज़ाइन किया गया है। यह वास्तविक commit इतिहास और environment कॉन्फ़िगरेशन से जुड़े एक्जीक्यूटेबल टास्क प्रदान करके मौजूदा बेंचमार्क की सीमाओं को दूर करता है।

arxiv arXiv cs.CL · 8 घंटे पहले

ऑडियो-आधारित ऑडियोबुक नैरेशन आकर्षण की समझ

यह अध्ययन LibriVox डेटा का विश्लेषण करके यह जांचता है कि वोकल और एकोस्टिक फीचर्स ऑडियोबुक आकर्षण को कैसे प्रभावित करते हैं। यह शीर्षक प्रभावों को ध्यान में रखने के बाद भी नैरेशन गुणवत्ता और उपभोग मेट्रिक्स के बीच एक मजबूत संबंध स्थापित करता है।

arxiv arXiv cs.CL · 8 घंटे पहले

रिइनफोर्समेंट लर्निंग के माध्यम से विज़न-लैंग्वेज मॉडल्स के लिए दृश्य रूप से आधारित आत्म-प्रतिबिंब

लेखकों ने VRRL प्रस्तावित किया है, एक रिइनफोर्समेंट लर्निंग फ्रेमवर्क जो विज़न-लैंग्वेज मॉडल्स को चैन-ऑफ़-थॉट तर्क के दौरान दृश्य रूप से आधारित आत्म-प्रतिबिंब करने में सक्षम बनाने के लिए डिज़ाइन किया गया है।

arxiv arXiv cs.CL · 8 घंटे पहले

प्रशिक्षण-मुक्त अवधारणा स्थानीयकरण के साथ टाइपोग्राफिक हमलों के खिलाफ मजबूती की ओर

लेखकों ने CLIP-आधारित विज़ुअल एन्कोडर्स में टाइपोग्राफिक हमलों को कम करने के लिए एक प्रशिक्षण-मुक्त विधि का प्रस्ताव किया है, जहां अनावश्यक पाठ दृश्य निरूपणों को शब्दार्थी अर्थ की ओर झुका देता है। सैंपलिंग-आधारित व्याख्याओं और सर्किट खनन का उपयोग करके, दृष्टिकोण विशिष्ट विज़न ट्रांसफॉर्मर घटकों को अलग करता है जो इस अवांछित शब्दार्थी जानकारी को एन्कोड करने के लिए जिम्मेदार हैं।

arxiv arXiv cs.CL · 8 घंटे पहले

तर्क LLM लंबे टेलीविजन नाटकों में वक्ता पहचान को बेहतर बनाता है

शोधकर्ताओं ने DramaSR-532K पेश किया, जो 900 से अधिक पात्रों के लिए 532K अंकित संवाद पंक्तियों वाला एक बड़े पैमाने पर बेंचमार्क है, और लंबे टेलीविजन नाटकों में वक्ता पहचान को बढ़ाने के लिए DramaSR-LRM का प्रस्ताव दिया।

arxiv arXiv cs.CL · 8 घंटे पहले

जब कोई नहीं देख रहा होता तो LLM एजेंट क्या कहते हैं: मल्टी-एजेंट बहस में सामाजिक संरचना और लैटेंट उद्देश्यों का उदय

यह अध्ययन जांचता है कि सामाजिक संरचना LLM एजेंटों के सार्वजनिक अभिव्यक्तियों को कैसे प्रभावित करती है, जो एक द्वि-चैनल बहस ढांचे के भीतर उनके सार्वजनिक उच्चारणों की तुलना ऑफ-द-रिकॉर्ड (OTR) प्रतिक्रियाओं से करता है। शोध दिखाता है कि एलाइनमेंट को प्रेरित करने वाले सेटिंग्स इन चैनलों के बीच व्यवस्थित विचलन का कारण बनते हैं, जहाँ निर्णय विचलन 10 मॉडलों और कई परिदृश्यों में ~3% की आधार रेखा से बढ़कर लगभग 40% हो जाता है।

arxiv arXiv cs.CL · 9 घंटे पहले

LLMs के लिए ऑनलाइन सुरक्षा मॉनिटरिंग

लेख में डिप्लॉयमेंट के दौरान बड़े भाषा मॉडलों में असुरक्षित आउटपुट की स्थिरता को संबोधित किया गया है और एक रियल-टाइम मॉनिटरिंग समाधान प्रस्तावित किया गया है। यह एक सरल मॉनिटर पेश करता है जो बाहरी मॉडल से वेरिफायर सिग्नल को थ्रेशोल्डिंग द्वारा अलार्म निर्णयों में परिवर्तित करता है, जिसमें थ्रेशोल्ड जोखिम नियंत्रण के माध्यम से कैलिब्रेटेड होते हैं।

arxiv arXiv cs.CL · 9 घंटे पहले

Program-as-Weights: फजी फंक्शंस के लिए एक प्रोग्रामिंग पैराडाइम

लेख Program-as-Weights (PAW) पेश करता है, एक पैराडाइम जो प्राकृतिक भाषा स्पेसिफिकेशन को कंपैक्ट, लोकली-एग्जीकुटेबल न्यूरल आर्टिफैक्ट्स में कंपाइल करता है ताकि बड़े लैंग्वेज मॉडल APIs को बदला जा सके। यह दृष्टिकोण फाउंडेशन मॉडल्स को इनपुट-प्रति समस्या समाधानकर्ता के बजाय टूल बिल्डर मानकर स्थानीयता, पुनरुत्पादकता और लागत में सुधार का लक्ष्य रखता है।

arxiv arXiv cs.CL · 9 घंटे पहले

LACUNA: LLM अनलर्निंग के लिए लोकलाइज़ेशन सटीकता का मूल्यांकन करने के लिए एक टेस्टबेड

शोधकर्ताओं ने LACUNA पेश किया, जो पहला अनलर्निंग टेस्टबेड है जिसमें ग्राउंड-ट्रुथ पैरामीटर-लेवल लोकलाइज़ेशन शामिल है ताकि यह मूल्यांकन करने की खाई को पूरा किया जा सके कि क्या अनलर्निंग वास्तव में मॉडल पैरामीटर से ज्ञान मिटा रहा है। टेस्टबेड सिंथेटिक व्यक्तियों के PII को 1B और 7B OLMo-आधारित मॉडलों के पूर्व-परिभाषित पैरामीटर में मास्क्ड निरंतर प्रीट्रेनिंग के माध्यम से इंजेक्ट करता है।

blog Simon Willison · 9 घंटे पहले

शामिल होने के लिए समझना

जेफ्री लिट का तर्क है कि डेवलपर्स को कोगनिटिव ऋण से बचने और रचनात्मक प्रक्रिया में सक्रिय भागीदार बने रहने के लिए कोडिंग एजेंट्स द्वारा उत्पन्न कोड को गहराई से समझना चाहिए।

media r/LocalLLaMA · 9 घंटे पहले

OpenLumara अब OpenAI एंडपॉइंट के माध्यम से किसी भी UI को स्थानीय मॉडल से जोड़ता है

ओपन सोर्स फ्रेमवर्क OpenLumara अब उस किसी भी यूजर इंटरफ़ेस से कनेक्शन का समर्थन करता है जो एक OpenAI एंडपॉइंट के साथ संवाद कर सकता है, जैसे कि KoboldLite और OpenWebUI। यह अपडेट उपयोगकर्ताओं को अपने पसंदीदा फ्रंटएंड को बदले बिना टोकन-कुशल हैंरेस को अपने मौजूदा वर्कफ़्लो में एकीकृत करने की अनुमति देता है।

media r/LocalLLaMA · 10 घंटे पहले

क्या कोई QGIS जैसे सॉफ़्टवेयर में बड़े पैमाने पर स्थानिक या शहर की व्यवस्था उत्पन्न करने के लिए स्थानीय LLM का उपयोग कर रहा है?

एक उपयोगकर्ता स्थानीय भाषा मॉडलों के लिए सिफारिशें खोज रहा है जो पूरे शहर की व्यवस्था, सड़क नेटवर्क और जटिल ग्रिड प्रणालियों जैसे बड़े पैमाने पर संरचनात्मक डेटा उत्पन्न करने में सक्षम हों।

blog Simon Willison · 10 घंटे पहले

llm-coding-agent 0.1a0

साइमन विलिसन ने llm-coding-agent 0.1a0 जारी किया, जो एक सरल कोडिंग एजेंट बनाने के लिए उसके LLM लाइब्रेरी को एजेंट फ्रेमवर्क के रूप में उपयोग करने का एक प्रारंभिक प्रयोग है। परियोजना को क्लॉड कोड से स्पेसिफिकेशन लिखने और लाल/हरा TDD का उपयोग करके टूल लागू करने के लिए प्रॉम्प्ट करके जनरेट किया गया था।

media r/LocalLLaMA · 10 घंटे पहले

सुझाव: Intel ARC पर PP सुधारने के लिए इस llama.cpp PR का उपयोग करें

llama.cpp के लिए एक सामुदायिक पल रिक्वेस्ट (pull request) Intel ARC उपयोगकर्ताओं के लिए प्रॉम्प्ट प्रोसेसिंग गति को काफी बढ़ाता है, विशेष रूप से B580 जैसे हार्डवेयर को लाभ होता है। योगदानकर्ता ने संदर्भ हैंडलिंग को तेज करने के लिए Claude की सहायता से कोड को अनुकूलित किया।

media r/LocalLLaMA · 10 घंटे पहले

शोधकर्ताओं ने स्थानीय, ओपन-वेट मॉडल पर पूरी तरह से काम करने वाले स्व-प्रतिकृति AI वर्म को बनाया

एक नई Arxiv पेपर में एक ऐसे स्व-प्रतिकृति AI वर्म के निर्माण का विवरण दिया गया है जो पूरी तरह से स्थानीय, ओपन-वेट मॉडल का उपयोग करके कार्य करता है। यह विकास बाह्य निर्भरताओं के बिना स्वतंत्र AI एजेंट्स के संचालन की संभावता को उजागर करता है।

media r/LocalLLaMA · 10 घंटे पहले

AMD GPUs के लिए बेहतर HIP Kernel जनरेशन की ओर: सिंथेटिक डेटा, मल्टी-एजेंट सर्च, और रीइन्फोर्समेंट लर्निंग

स्टैनफोर्ड के Scaling Intelligence ब्लॉग से यह लेख सिंथेटिक डेटा, मल्टी-एजेंट सर्च, और रीइन्फोर्समेंट लर्निंग का उपयोग करके AMD GPUs के लिए HIP kernel जनरेशन को बेहतर बनाने की विधियों पर चर्चा करता है।

lab ByteDance Seed (HF) · 11 घंटे पहले

ByteDance-Seed/PAR: प्रोटीन ऑटोरिग्रेसिव मॉडलिंग चेकपॉइंट्स

यह रिपॉजिटरी मल्टीस्केल स्ट्रक्चर जनरेशन के माध्यम से प्रोटीन ऑटोरिग्रेसिव मॉडलिंग के लिए मॉडल चेकपॉइंट्स प्रदान करता है, जिसे ICML 2026 में एक मौखिक प्रस्तुति के रूप में स्वीकार किया गया था।

lab Claude Code Releases · 11 घंटे पहले

Claude Code v2.1.199 रिलीज़ नोट्स

Claude Code v2.1.199 अपडेट स्थिरता और उपयोगिता की समस्याओं को संबोधित करता है, जिसमें SSL प्रमाणपत्र त्रुटियों, स्ट्रीमिंग प्रतिक्रिया हैंडलिंग और बैकग्राउंड एजेंट प्रबंधन के लिए फिक्स शामिल हैं।