LordNeel ने Qwen3.5-MoE पर आधारित 35B मिक्स्चर ऑफ एक्सपर्ट्स एजेंट मॉडल, InternScience के Agents-A1 की GGUF क्वांटीज़ेशन प्रकाशित की है। रिलीज में Blackwell GPUs के लिए अनुकूलित NVFP4 फॉर्मेट शामिल है और इनफरेंस गति को बेहतर बनाने के लिए मल्टी-टोकन प्रिडिक्शन (MTP) स्पेकुलेटिव डिकोडिंग को एकीकृत किया गया है।

  • मॉडल में 256K कॉन्टेक्स्ट विंडो के साथ 256 एक्सपर्ट्स पर ~3B सक्रिय पैरामीटर हैं, जो लंबे समय तक खोज और टूल-कॉलिंग के लिए डिज़ाइन किए गए हैं।
  • गुणवत्ता का मापन 32 प्रॉम्प्ट्स पर शीर्ष-64 नेक्स्ट-टोकन वितरणों पर KL-डायवर्जेंस के रूप में किया गया, जिसमें विभिन्न क्वांट स्तरों की तुलना BF16 से की गई।
  • NVFP4 बिल्ड्स को FP4-सक्षम बिल्ड्स वाले Blackwell GPUs की आवश्यकता है, जबकि IQ4_XS और Q5_K_M जैसे अन्य फॉर्मेट संकुचित या लगभग-BF16 विश्वसनीयता प्रदान करते हैं।
  • MTP स्पेकुलेटिव डिकोडिंग को एक अलग साइडकार चेकपॉइंट से जोड़ा गया था, जिससे सिंगल-यूजर सर्विंग पर थ्रूपुट में 1.22× तक वृद्धि हुई।
  • Q4_K_M-MTP के लिए n_max=1 के साथ ड्राफ्ट स्वीकृति दरें 91.5% तक पहुंच गईं, जबकि विजन सपोर्ट के बिना केवल टेक्स्ट फंक्शनलिटी बनाए रखी गई।

यह रिलीज स्थानीय रूप से Agents-A1 मॉडल चलाने के लिए उपयोगकर्ताओं को अनुकूलित विकल्प प्रदान करती है, जो विशिष्ट क्वांटीज़ेशन तकनीकों और स्पेकुलेटिव डिकोडिंग के माध्यम से आकार, गुणवत्ता और गति के बीच संतुलन बनाती है।