स्थानीय LLM कोडिंग के लिए संदर्भ विंडो को अधिकतम करने पर सलाह मांग रहा है

एक Reddit उपयोगकर्ता स्थानीय बड़े भाषा मॉडल चलाने के लिए संदर्भ स्थान और गणनात्मक दक्षता को अनुकूलित करने की सिफारिशें मांग रहा है। पोस्टर NVIDIA RTX 3090 पर 24GB VRAM के साथ Qwen 3.6 27B मॉडल को Q4 पर क्वांटाइज्ड का उपयोग कर रहा है।

उपयोगकर्ता लगभग 34,000 टोकन की कुल संदर्भ विंडो की रिपोर्ट करता है।
HDBSCAN और डायरी रूटीन का उपयोग करने वाला एक कस्टड मेमोरी सिस्टम स्टार्टअप पर लगभग 24,000 टोकन लेता है।
प्रणाली RAM का उपयोग करके संदर्भ विंडो को बढ़ाने का प्रयास करने से प्रदर्शन काफी धीमा हो जाता है।
उपयोगकर्ता का प्राथमिक लक्ष्य स्थानीय कोडिंग सहायता है, लेकिन सीमित हार्डवेयर संसाधनों के कारण बाधाओं का सामना करना पड़ रहा है।