एक उपयोगकर्ता RTX 5090 GPU और 64GB RAM से लैस सिस्टम पर llama-server का उपयोग करके Qwen3.5 122B मॉडल चलाने का प्रयास कर रहा है। रिपोर्ट किया गया इन्फरेंस स्पीड लगभग 6 टोकन प्रति सेकंड (tps) से शुरू होता है और जनरेशन के दौरान धीरे-धीरे बढ़कर आसपास 20 tps हो जाता है।

  • हार्डवेयर कॉन्फ़िगरेशन: NVIDIA RTX 5090 जिसमें 32GB VRAM और 64GB सिस्टम RAM है।
  • मॉडल वेरिएंट: Qwen3.5-122B-A10B को Q5_K_S के रूप में क्वांटाइज़ किया गया।
  • प्रदर्शन मेट्रिक्स: जनरेशन की अवधि के दौरान ~6 tps से शुरू होकर ~20 tps तक बढ़ने वाली प्रारंभिक थ्रूपुट।
  • इन्फरेंस सेटिंग्स: flash attention सक्षम, 16 थ्रेड्स और 100,000 टोकन की संदर्भ लंबाई के साथ llama-server का उपयोग किया गया।

उपयोगकर्ता उच्च टोकन जनरेशन गति प्राप्त करने के लिए इस सेटअप को और कैसे अनुकूलित करें, इसके बारे में सलाह खोज रहा है।