एक उपयोगकर्ता ने रिपोर्ट किया है कि Qwen 27B, q6kxl तक क्वांटाइज़्ड और 4090 और 3090 GPUs के साथ एक सिस्टम पर मल्टी-टोकन प्रेडिक्शन के साथ चल रहा है, 50-90 tokens/s की डिकोड गति और 1500-2200 tokens/s की प्री-फिल गति प्राप्त करता है। मॉडल विभिन्न APIs के साथ विश्वसनीय रूप से इंटरफेस करता है और सिंगल-पेज ऐप्स, LaTeX दस्तावेज़ों, पार्सर और क्रॉलर के लिए फंक्शनल कोड जनरेट करता है।
- मॉडल: Qwen 27B (q6kxl क्वांटाइज़ेशन)
- हार्डवेयर: 96GB VRAM के साथ 4090+3090 सिस्टम
- डिकोड गति: 50-90 tokens/s
- प्री-फिल गति: 1500-2200 tokens/s
- क्षमता: मौजूदा स्कीमा को बनाए रखते हुए औसत आकार के कोडबेस को इनगेस्ट करता है।
इस कॉन्फ़िगरेशन को इस हार्डवेयर पर टूल्स या हैंसेस के व्यापक ट्यूनिंग की आवश्यकता के बिना विश्वसनीय सहसंबंध और गति प्रदान करने वाले पहले स्थानीय मॉडल के रूप में उजागर किया गया है।