सभी लेख — korshunov.ai — ML समाचार

सभी लेख पृष्ठ 1 / 24

ANTHROPIC_BASE_URL सेट होने पर Claude Code एक तंत्र सक्रिय करता है

एक शोधकर्ता ने Claude Code में एक तंत्र की पहचान की है जो तब सक्रिय होता है जब उपयोगकर्ता ANTHROPIC_BASE_URL पर्यावरण चर को सेट करता है, जिसे आमतौर पर स्थानीय मॉडल के लिए उपयोग किया जाता है। इस प्रक्रिया में सॉफ़्टवेयर के कोड में एम्बेडेड संदिग्ध होस्टनेम की सूची को डिकोड और डिक्रिप्ट करना शामिल है।

arxiv arXiv cs.CL · 9 घंटे पहले

बहुभाषी सेटिंग्स में LLMs-एज-जज के लिए चुनौतियाँ और सिफारिशें

यह लेख बहुभाषी और कम संसाधन वाली भाषाओं के संदर्भों में मूल्यांकक के रूप में बड़े भाषा मॉडलों का उपयोग करने की विश्वसनीयता का परीक्षण करता है, वर्तमान अभ्यासों में महत्वपूर्ण अंतराल को उजागर करते हुए। लेखकों ने असंगतियों और एकल जज मॉडलों पर अत्यधिक निर्भरता की पहचान करने के लिए 650 ACL Anthology पेपर का विश्लेषण किया है।

arxiv arXiv cs.CL · 10 घंटे पहले

AgenticSTS: लंबे-अवधि LLM एजेंट्स के लिए एक बाउंडेड-मेमोरी टेस्टबेड

लेखकों ने AgenticSTS का परिचय दिया है, जो एक टेस्टबेड है जिसे स्पष्ट मेमोरी लेयरों द्वारा लंबे-अवधि LLM-एजेंट निर्णयों को कैसे आकार दिया जाता है, इसका अध्ययन करने के लिए डिज़ाइन किया गया है। यह Slay the Spire 2 गेम में एक बाउंडेड-मेमोरी कॉन्ट्रैक्ट का उपयोग करता है जहां प्रॉम्प्ट्स टाइप्ड रीट्रीवल द्वारा इकट्ठा किए जाते हैं, न कि कच्चे ट्रांसक्रिप्ट को जोड़कर।

arxiv arXiv cs.CL · 10 घंटे पहले

BamiBERT: वियतनामी के लिए एक नया BERT-आधारित भाषा मॉडल

शोधकर्ताओं ने BamiBERT का परिचय दिया, जो वियतनामी के लिए एक नया BERT-आधारित प्री-ट्रेन्ड भाषा मॉडल है, जो वर्तमान मानक PhoBERT की सीमाओं को दूर करने के लिए डिज़ाइन किया गया है। 129GB कॉरपस पर 20 epochs के लिए शून्य से प्रशिक्षित, यह 2048 टोकन तक विस्तारित संदर्भ लंबाई का समर्थन करता है और बाहरी शब्द विभाजन के बिना सीधे कच्चे इनपुट पर काम करता है।

arxiv arXiv cs.CL · 10 घंटे पहले

CheckRLM: रीट्रिवल-एंगमेंटेड रीजनिंग में ज्ञान-विचार सहसंबंध की प्रभावी जाँच

लेखकों ने CheckRLM का प्रस्ताव दिया है, एक फ्रेमवर्क जो इनफरेंस के दौरान तथ्यात्मक त्रुटियों को समय पर जाँचने और सुधारने के लिए रीट्रिवल-एंगमेंटेड जनरेशन का उपयोग करके रीजनिंग लैंग्वेज मॉडल्स की विश्वसनीयता को बढ़ाता है। यह दृष्टिकोण असंगतियों की पहचान करने के लिए तर्क श्रृंखलाओं से तथ्यात्मक दावों को निकालता है और बाह्य ज्ञान के माध्यम से न्यूनतम लागत वाले सुधार लागू करता है।

arxiv arXiv cs.CL · 10 घंटे पहले

HERMES: प्री-ट्रेनिंग डेटा मिश्रणों के लिए एक बहु-ग्रैन्युलरिटी लेबलिंग सब्सट्रेट

HERMES एक डेटा-उत्पन्न लेबलिंग सब्सट्रेट है जो सीखे गए सेमांटिक ट्रांसफॉर्म और 3-चरण रीजिडुअल वेक्टर क्वांटीज़ेशन का उपयोग करके दस्तावेज़ों को लगभग 130k कोशिकाओं तक के मोटे से बारीक कोड में एनोटेट करता है।

arxiv arXiv cs.CL · 10 घंटे पहले

संरचनात्मक सामान्यीकरण में दिशात्मकता की भूमिका पर

लेख AM-Parser के लिए एक पुनर्निर्मित प्रतीकात्मक बैकएंड पेश करता है जो संरचनात्मक सामान्यीकरण कार्यों जैसे मॉडिफायर स्थिति परिवर्तनों में दिशात्मक भेदों को बेहतर ढंग से संभालने के लिए CCG निर्देशित प्रकारों का उपयोग करता है।

media r/LocalLLaMA · 11 घंटे पहले

DGX Spark और Strix Halo के साथ disaggregated prompt प्रोसेसिंग

एक उपयोगकर्ता DGX Spark का उपयोग prefilling के लिए और Strix Halo बॉक्स का उपयोग token जनरेशन के लिए करके एक disaggregated inference pipeline का प्रदर्शन करता है, लंबे-संदर्भ कार्यभारों के लिए महत्वपूर्ण गति वृद्धि हासिल करता है। DGX पर कंप्यूटेशनली इंटेंसिव prompt प्रोसेसिंग को offload करके और decoding के लिए Strix की मेमोरी बैंडविड्थ का लाभ उठाकर, सेटअप Strix पर अकेले चलते समय देखी गई प्रदर्शन ह्रास को दूर करता है।

arxiv arXiv cs.CL · 11 घंटे पहले

ग्राफ स्पैनर्स का उपयोग करके सटीकता गारंटी के साथ HNSW

यह तकनीकी रिपोर्ट एक "सर्टिफाई-थेन-रेक्टिफाई" फ्रेमवर्क पेश करता है जो हियरार्किकल नेविगेबल स्मॉल वर्ल्ड (HNSW) ग्राफ की गति को सैद्धांतिक सहीपन की गारंटी के साथ जोड़ता है। विधि खोज की गुणवत्ता का गतिशील रूप से मूल्यांकन करती है और यदि आवश्यक हो तो एक सटीक पुनर्प्राप्ति एल्गोरिदम पर स्केल करती है, जिससे सबसे खराब स्थिति में सटीकता सुनिश्चित होती है।

arxiv arXiv cs.CL · 12 घंटे पहले

SkillFuzz: ओपन स्किल मार्केटप्लेस में अंतर्निहित इरादों की खोज के लिए स्किल कंपोजिशन का फज़िंग

पत्र में SkillFuzz पेश किया गया है, जो एक निष्पादन-मुक्त परीक्षण दृष्टिकोण है जो ओपन स्किल मार्केटप्लेस में अंतर्निहित इरादों की खोज के लिए डिज़ाइन किया गया है जहां व्यक्तिगत रूप से हानिरहित स्किल एजेंट्स को अनचाहे उद्देश्यों की ओर मोड़ने के लिए इंटरैक्ट कर सकते हैं। इस खोज को स्किल कंपोजिशन पर एक फ़ज़िंग समस्या के रूप में परिभाषित करके, विधि संरचित अनुबंधों को निकालती है और संभावित टकराव वाले संयोजनों को प्राथमिकता देने के लिए अनुबंध-निर्देशित मोंटे कार्लो ट्री सर्च का उपयोग करती है।

arxiv arXiv cs.CL · 12 घंटे पहले

वर्ल्ड वाइड मॉडल्स: सांस्कृतिक AI के लिए साहित्यिक उपकरण

लेख तर्क देता है कि साहित्यिक अनुशासन संस्कृति-साक्षर AI बनाने के लिए अतुलनीय उपकरण प्रदान करते हैं, जो एकभाषी बड़े भाषा मॉडलों की सीमाओं को संबोधित करते हैं।

arxiv arXiv cs.CL · 12 घंटे पहले

MER-TRANS 2026 में HULAT2: स्पैनिश आसान-पढ़ने योग्य जनरेशन के लिए शासित मल्टी-एजेंट सरलीकरण

यह पेपर MER-TRANS 2026 की स्पैनिश ट्रैक में HULAT2-UC3M की भागीदारी का विवरण देता है, जो बहुभाषी आसान-पढ़ने योग्य अनुवाद पर एक साझा कार्य है। टीम ने सरलीकरण रणनीतियों का मूल्यांकन करने के लिए एक लीनियर बेलाइन के खिलाफ एक मल्टी-एजेंट वर्कफ़्लो की तुलना करते हुए तीन पूरी तरह से स्वचालित रन जमा किए।

arxiv arXiv cs.CL · 12 घंटे पहले

अपने स्रोत को जानें: मीडिया पृष्ठभूमि जाँच के लिए एक सार्वजनिक ज्ञान भंडार

लेखकों ने MEDIAREF का परिचय दिया है, जो वेब-स्रोत दस्तावेज़ों का एक सार्वजनिक रूप से उपलब्ध ज्ञान भंडार है जिसे मीडिया पृष्ठभूमि जाँच (MBC) के पुनरुत्पादन योग्य और कम लागत वाले मूल्यांकन को सक्षम बनाने के लिए डिज़ाइन किया गया है। यह उपकरण हाल के स्रोत-आलोधात्मक तर्क दृष्टिकोणों में महंगी स्वामित्व वाली खोज API पर निर्भरता को संबोधित करता है।

arxiv arXiv cs.CL · 12 घंटे पहले

नेचुरल लैंग्वेज प्रोसेसिंग में शैक्षणिक माइग्रेशन पैटर्न

2010 से 2026 तक NLP शोध का विश्लेषण करने वाला एक अध्ययन पाता है कि अनुशासनिक गुरुत्व केंद्र स्थानांतरित हो रहा है क्योंकि Large Language Model की प्रगति NLP और सामान्य मशीन लर्निंग के बीच रेखाओं को धुंधला कर रही है।

arxiv arXiv cs.CL · 13 घंटे पहले

बड़े भाषा मॉडल का उपयोग करके Linux/bash परीक्षणों का स्वचालित मूल्यांकन

यह अध्ययन इस बात का मूल्यांकन करता है कि चार अग्रणी बड़े भाषा मॉडल (GPT, Claude Opus, Gemini और GLM) छोटे Linux/bash कमांड उत्तरों को ग्रेड करते समय विशेषज्ञ निर्णय के समान हो सकते हैं। शोध दिखाता है कि संरचित प्रॉम्प्ट मानव ग्रेडर्स के साथ सहमति को काफी बढ़ाते हैं, कंप्यूटिंग शिक्षा में AI-सहायता वाले मूल्यांकन के लिए एक ढांचा स्थापित करते हैं।

arxiv arXiv cs.CL · 13 घंटे पहले

EvoPolicyGym: इंटरैक्टिव एनवायरनमेंट में स्वतंत्र पॉलिसी विकास का मूल्यांकन

लेख EvoPolicyGym को पेश करता है, एक बेंचमार्क जिसे डिज़ाइन किया गया है ताकि यह मूल्यांकन किया जा सके कि एजेंट्स निश्चित इंटरैक्शन बजट के भीतर फीडबैक के माध्यम से एक्जीक्यूटेबल पॉलिसी को कैसे पुनरावृत्त रूप से सुधारते हैं। यह नियंत्रित सेटिंग मौजूदा मूल्यांकनों की सीमाओं को दूर करती है जो अक्सर प्रक्रिया को अंतिम स्कोर में बदल देते हैं या इसे सॉफ्टवेयर इंजीनियरिंग प्रगति के साथ भ्रमित करते हैं।

arxiv arXiv cs.CL · 13 घंटे पहले

ANTHROPIC_BASE_URL सेट होने पर Claude Code एक तंत्र सक्रिय करता है

बहुभाषी सेटिंग्स में LLMs-एज-जज के लिए चुनौतियाँ और सिफारिशें

AgenticSTS: लंबे-अवधि LLM एजेंट्स के लिए एक बाउंडेड-मेमोरी टेस्टबेड

BamiBERT: वियतनामी के लिए एक नया BERT-आधारित भाषा मॉडल

CheckRLM: रीट्रिवल-एंगमेंटेड रीजनिंग में ज्ञान-विचार सहसंबंध की प्रभावी जाँच

HERMES: प्री-ट्रेनिंग डेटा मिश्रणों के लिए एक बहु-ग्रैन्युलरिटी लेबलिंग सब्सट्रेट

संरचनात्मक सामान्यीकरण में दिशात्मकता की भूमिका पर

DGX Spark और Strix Halo के साथ disaggregated prompt प्रोसेसिंग

ग्राफ स्पैनर्स का उपयोग करके सटीकता गारंटी के साथ HNSW

SkillFuzz: ओपन स्किल मार्केटप्लेस में अंतर्निहित इरादों की खोज के लिए स्किल कंपोजिशन का फज़िंग

वर्ल्ड वाइड मॉडल्स: सांस्कृतिक AI के लिए साहित्यिक उपकरण

MER-TRANS 2026 में HULAT2: स्पैनिश आसान-पढ़ने योग्य जनरेशन के लिए शासित मल्टी-एजेंट सरलीकरण

अपने स्रोत को जानें: मीडिया पृष्ठभूमि जाँच के लिए एक सार्वजनिक ज्ञान भंडार

नेचुरल लैंग्वेज प्रोसेसिंग में शैक्षणिक माइग्रेशन पैटर्न

बड़े भाषा मॉडल का उपयोग करके Linux/bash परीक्षणों का स्वचालित मूल्यांकन

EvoPolicyGym: इंटरैक्टिव एनवायरनमेंट में स्वतंत्र पॉलिसी विकास का मूल्यांकन

संस्कृति के लिए मापन उपकरण के रूप में भाषा मॉडल

Aiden Mobile Agent: भौतिक USB AI डिवाइस डेमो

MoA-Max: 40B से कम पैरामीटर वाले मॉडलों के साथ सर्वश्रेष्ठ मिक्स्चर ऑफ एजेंट्स

मेरे खाते पर परीक्षण