सभी लेख
media r/LocalLLaMA · 8 घंटे पहले

DGX Spark और Strix Halo के साथ disaggregated prompt प्रोसेसिंग

एक उपयोगकर्ता DGX Spark का उपयोग prefilling के लिए और Strix Halo बॉक्स का उपयोग token जनरेशन के लिए करके एक disaggregated inference pipeline का प्रदर्शन करता है, लंबे-संदर्भ कार्यभारों के लिए महत्वपूर्ण गति वृद्धि हासिल करता है। DGX पर कंप्यूटेशनली इंटेंसिव prompt प्रोसेसिंग को offload करके और decoding के लिए Strix की मेमोरी बैंडविड्थ का लाभ उठाकर, सेटअप Strix पर अकेले चलते समय देखी गई प्रदर्शन ह्रास को दूर करता है।

arxiv arXiv cs.CL · 8 घंटे पहले

ग्राफ स्पैनर्स का उपयोग करके सटीकता गारंटी के साथ HNSW

यह तकनीकी रिपोर्ट एक "सर्टिफाई-थेन-रेक्टिफाई" फ्रेमवर्क पेश करता है जो हियरार्किकल नेविगेबल स्मॉल वर्ल्ड (HNSW) ग्राफ की गति को सैद्धांतिक सहीपन की गारंटी के साथ जोड़ता है। विधि खोज की गुणवत्ता का गतिशील रूप से मूल्यांकन करती है और यदि आवश्यक हो तो एक सटीक पुनर्प्राप्ति एल्गोरिदम पर स्केल करती है, जिससे सबसे खराब स्थिति में सटीकता सुनिश्चित होती है।

arxiv arXiv cs.CL · 8 घंटे पहले

SkillFuzz: ओपन स्किल मार्केटप्लेस में अंतर्निहित इरादों की खोज के लिए स्किल कंपोजिशन का फज़िंग

पत्र में SkillFuzz पेश किया गया है, जो एक निष्पादन-मुक्त परीक्षण दृष्टिकोण है जो ओपन स्किल मार्केटप्लेस में अंतर्निहित इरादों की खोज के लिए डिज़ाइन किया गया है जहां व्यक्तिगत रूप से हानिरहित स्किल एजेंट्स को अनचाहे उद्देश्यों की ओर मोड़ने के लिए इंटरैक्ट कर सकते हैं। इस खोज को स्किल कंपोजिशन पर एक फ़ज़िंग समस्या के रूप में परिभाषित करके, विधि संरचित अनुबंधों को निकालती है और संभावित टकराव वाले संयोजनों को प्राथमिकता देने के लिए अनुबंध-निर्देशित मोंटे कार्लो ट्री सर्च का उपयोग करती है।

arxiv arXiv cs.CL · 9 घंटे पहले

वर्ल्ड वाइड मॉडल्स: सांस्कृतिक AI के लिए साहित्यिक उपकरण

लेख तर्क देता है कि साहित्यिक अनुशासन संस्कृति-साक्षर AI बनाने के लिए अतुलनीय उपकरण प्रदान करते हैं, जो एकभाषी बड़े भाषा मॉडलों की सीमाओं को संबोधित करते हैं।

arxiv arXiv cs.CL · 9 घंटे पहले

MER-TRANS 2026 में HULAT2: स्पैनिश आसान-पढ़ने योग्य जनरेशन के लिए शासित मल्टी-एजेंट सरलीकरण

यह पेपर MER-TRANS 2026 की स्पैनिश ट्रैक में HULAT2-UC3M की भागीदारी का विवरण देता है, जो बहुभाषी आसान-पढ़ने योग्य अनुवाद पर एक साझा कार्य है। टीम ने सरलीकरण रणनीतियों का मूल्यांकन करने के लिए एक लीनियर बेलाइन के खिलाफ एक मल्टी-एजेंट वर्कफ़्लो की तुलना करते हुए तीन पूरी तरह से स्वचालित रन जमा किए।

arxiv arXiv cs.CL · 9 घंटे पहले

अपने स्रोत को जानें: मीडिया पृष्ठभूमि जाँच के लिए एक सार्वजनिक ज्ञान भंडार

लेखकों ने MEDIAREF का परिचय दिया है, जो वेब-स्रोत दस्तावेज़ों का एक सार्वजनिक रूप से उपलब्ध ज्ञान भंडार है जिसे मीडिया पृष्ठभूमि जाँच (MBC) के पुनरुत्पादन योग्य और कम लागत वाले मूल्यांकन को सक्षम बनाने के लिए डिज़ाइन किया गया है। यह उपकरण हाल के स्रोत-आलोधात्मक तर्क दृष्टिकोणों में महंगी स्वामित्व वाली खोज API पर निर्भरता को संबोधित करता है।

arxiv arXiv cs.CL · 9 घंटे पहले

नेचुरल लैंग्वेज प्रोसेसिंग में शैक्षणिक माइग्रेशन पैटर्न

2010 से 2026 तक NLP शोध का विश्लेषण करने वाला एक अध्ययन पाता है कि अनुशासनिक गुरुत्व केंद्र स्थानांतरित हो रहा है क्योंकि Large Language Model की प्रगति NLP और सामान्य मशीन लर्निंग के बीच रेखाओं को धुंधला कर रही है।

arxiv arXiv cs.CL · 9 घंटे पहले

बड़े भाषा मॉडल का उपयोग करके Linux/bash परीक्षणों का स्वचालित मूल्यांकन

यह अध्ययन इस बात का मूल्यांकन करता है कि चार अग्रणी बड़े भाषा मॉडल (GPT, Claude Opus, Gemini और GLM) छोटे Linux/bash कमांड उत्तरों को ग्रेड करते समय विशेषज्ञ निर्णय के समान हो सकते हैं। शोध दिखाता है कि संरचित प्रॉम्प्ट मानव ग्रेडर्स के साथ सहमति को काफी बढ़ाते हैं, कंप्यूटिंग शिक्षा में AI-सहायता वाले मूल्यांकन के लिए एक ढांचा स्थापित करते हैं।

arxiv arXiv cs.CL · 10 घंटे पहले

EvoPolicyGym: इंटरैक्टिव एनवायरनमेंट में स्वतंत्र पॉलिसी विकास का मूल्यांकन

लेख EvoPolicyGym को पेश करता है, एक बेंचमार्क जिसे डिज़ाइन किया गया है ताकि यह मूल्यांकन किया जा सके कि एजेंट्स निश्चित इंटरैक्शन बजट के भीतर फीडबैक के माध्यम से एक्जीक्यूटेबल पॉलिसी को कैसे पुनरावृत्त रूप से सुधारते हैं। यह नियंत्रित सेटिंग मौजूदा मूल्यांकनों की सीमाओं को दूर करती है जो अक्सर प्रक्रिया को अंतिम स्कोर में बदल देते हैं या इसे सॉफ्टवेयर इंजीनियरिंग प्रगति के साथ भ्रमित करते हैं।

arxiv arXiv cs.CL · 10 घंटे पहले

संस्कृति के लिए मापन उपकरण के रूप में भाषा मॉडल

यह पेपर तर्क देता है कि सांस्कृतिक घटनाओं को मात्रात्मक रूप देने के लिए NLP का उपयोग करना एक भौतिक-व्याकरणिक अभ्यास है जहाँ उपकरण सक्रिय रूप से उस वास्तविकता का गठन करता है जिसे यह मापता है, न कि इसे निष्क्रिय रूप से रिकॉर्ड करता है।

arxiv arXiv cs.CL · 11 घंटे पहले

क्या LLMs के साथ सामाजिक सिमुलेशन को स्केलिंग से सुधार मिलेगा?

यह अध्ययन जांचता है कि वर्तमान भाषा मॉडल स्केलिंग पैराडाइम क्या राय मॉडलिंग, व्यवहारिक सिमुलेशन और दीर्घकालिक पूर्वानुमान में सामाजिक सिमुलेशन के विश्वसनीयता अंतर को बंद कर सकते हैं। $10^{18}$ से $10^{20}$ FLOPs तक स्थिर-कंप्यूट बजट के तहत DCLM कॉर्पस पर प्रशिक्षित 85 Qwen3 ट्रान्सफॉर्मर मॉडल का उपयोग करते हुए, लेखक कंप्यूट स्केल और सिमुलेशन सटीकता के बीच संबंध का विश्लेषण करते हैं।

arxiv arXiv cs.CL · 11 घंटे पहले

TestEvo-Bench: टेस्ट और कोड सह-विकास के लिए एक एक्जीक्यूटेबल और लाइव बेंचमार्क

लेखकों ने TestEvo-Bench पेश किया है, जो एक लाइव बेंचमार्क है जिसे कोड और टेस्ट की सह-विकास को कैसे संभालते हैं, इसका मूल्यांकन करने के लिए डिज़ाइन किया गया है। यह वास्तविक commit इतिहास और environment कॉन्फ़िगरेशन से जुड़े एक्जीक्यूटेबल टास्क प्रदान करके मौजूदा बेंचमार्क की सीमाओं को दूर करता है।

arxiv arXiv cs.CL · 12 घंटे पहले

ऑडियो-आधारित ऑडियोबुक नैरेशन आकर्षण की समझ

यह अध्ययन LibriVox डेटा का विश्लेषण करके यह जांचता है कि वोकल और एकोस्टिक फीचर्स ऑडियोबुक आकर्षण को कैसे प्रभावित करते हैं। यह शीर्षक प्रभावों को ध्यान में रखने के बाद भी नैरेशन गुणवत्ता और उपभोग मेट्रिक्स के बीच एक मजबूत संबंध स्थापित करता है।

arxiv arXiv cs.CL · 12 घंटे पहले

रिइनफोर्समेंट लर्निंग के माध्यम से विज़न-लैंग्वेज मॉडल्स के लिए दृश्य रूप से आधारित आत्म-प्रतिबिंब

लेखकों ने VRRL प्रस्तावित किया है, एक रिइनफोर्समेंट लर्निंग फ्रेमवर्क जो विज़न-लैंग्वेज मॉडल्स को चैन-ऑफ़-थॉट तर्क के दौरान दृश्य रूप से आधारित आत्म-प्रतिबिंब करने में सक्षम बनाने के लिए डिज़ाइन किया गया है।

arxiv arXiv cs.CL · 12 घंटे पहले

प्रशिक्षण-मुक्त अवधारणा स्थानीयकरण के साथ टाइपोग्राफिक हमलों के खिलाफ मजबूती की ओर

लेखकों ने CLIP-आधारित विज़ुअल एन्कोडर्स में टाइपोग्राफिक हमलों को कम करने के लिए एक प्रशिक्षण-मुक्त विधि का प्रस्ताव किया है, जहां अनावश्यक पाठ दृश्य निरूपणों को शब्दार्थी अर्थ की ओर झुका देता है। सैंपलिंग-आधारित व्याख्याओं और सर्किट खनन का उपयोग करके, दृष्टिकोण विशिष्ट विज़न ट्रांसफॉर्मर घटकों को अलग करता है जो इस अवांछित शब्दार्थी जानकारी को एन्कोड करने के लिए जिम्मेदार हैं।

arxiv arXiv cs.CL · 12 घंटे पहले

तर्क LLM लंबे टेलीविजन नाटकों में वक्ता पहचान को बेहतर बनाता है

शोधकर्ताओं ने DramaSR-532K पेश किया, जो 900 से अधिक पात्रों के लिए 532K अंकित संवाद पंक्तियों वाला एक बड़े पैमाने पर बेंचमार्क है, और लंबे टेलीविजन नाटकों में वक्ता पहचान को बढ़ाने के लिए DramaSR-LRM का प्रस्ताव दिया।

arxiv arXiv cs.CL · 12 घंटे पहले

जब कोई नहीं देख रहा होता तो LLM एजेंट क्या कहते हैं: मल्टी-एजेंट बहस में सामाजिक संरचना और लैटेंट उद्देश्यों का उदय

यह अध्ययन जांचता है कि सामाजिक संरचना LLM एजेंटों के सार्वजनिक अभिव्यक्तियों को कैसे प्रभावित करती है, जो एक द्वि-चैनल बहस ढांचे के भीतर उनके सार्वजनिक उच्चारणों की तुलना ऑफ-द-रिकॉर्ड (OTR) प्रतिक्रियाओं से करता है। शोध दिखाता है कि एलाइनमेंट को प्रेरित करने वाले सेटिंग्स इन चैनलों के बीच व्यवस्थित विचलन का कारण बनते हैं, जहाँ निर्णय विचलन 10 मॉडलों और कई परिदृश्यों में ~3% की आधार रेखा से बढ़कर लगभग 40% हो जाता है।

arxiv arXiv cs.CL · 13 घंटे पहले

LLMs के लिए ऑनलाइन सुरक्षा मॉनिटरिंग

लेख में डिप्लॉयमेंट के दौरान बड़े भाषा मॉडलों में असुरक्षित आउटपुट की स्थिरता को संबोधित किया गया है और एक रियल-टाइम मॉनिटरिंग समाधान प्रस्तावित किया गया है। यह एक सरल मॉनिटर पेश करता है जो बाहरी मॉडल से वेरिफायर सिग्नल को थ्रेशोल्डिंग द्वारा अलार्म निर्णयों में परिवर्तित करता है, जिसमें थ्रेशोल्ड जोखिम नियंत्रण के माध्यम से कैलिब्रेटेड होते हैं।

arxiv arXiv cs.CL · 13 घंटे पहले

Program-as-Weights: फजी फंक्शंस के लिए एक प्रोग्रामिंग पैराडाइम

लेख Program-as-Weights (PAW) पेश करता है, एक पैराडाइम जो प्राकृतिक भाषा स्पेसिफिकेशन को कंपैक्ट, लोकली-एग्जीकुटेबल न्यूरल आर्टिफैक्ट्स में कंपाइल करता है ताकि बड़े लैंग्वेज मॉडल APIs को बदला जा सके। यह दृष्टिकोण फाउंडेशन मॉडल्स को इनपुट-प्रति समस्या समाधानकर्ता के बजाय टूल बिल्डर मानकर स्थानीयता, पुनरुत्पादकता और लागत में सुधार का लक्ष्य रखता है।

arxiv arXiv cs.CL · 13 घंटे पहले

LACUNA: LLM अनलर्निंग के लिए लोकलाइज़ेशन सटीकता का मूल्यांकन करने के लिए एक टेस्टबेड

शोधकर्ताओं ने LACUNA पेश किया, जो पहला अनलर्निंग टेस्टबेड है जिसमें ग्राउंड-ट्रुथ पैरामीटर-लेवल लोकलाइज़ेशन शामिल है ताकि यह मूल्यांकन करने की खाई को पूरा किया जा सके कि क्या अनलर्निंग वास्तव में मॉडल पैरामीटर से ज्ञान मिटा रहा है। टेस्टबेड सिंथेटिक व्यक्तियों के PII को 1B और 7B OLMo-आधारित मॉडलों के पूर्व-परिभाषित पैरामीटर में मास्क्ड निरंतर प्रीट्रेनिंग के माध्यम से इंजेक्ट करता है।