चार DGX Sparks पर GLM-5.2 NVFP4 — MTP का रहस्य सुलझा, अब 128K संदर्भ में ~24 tok/s

चार DGX Spark नोड्स पर GLM-5.2 NVFP4 चलाने के बारे में एक अनुवर्ती जांच ने पिछले प्रदर्शन बॉटलनेक को हल किया जहाँ 128K संदर्भ के साथ उच्च स्वीकार दरें असंभव थीं।

मूल कारण vLLM के `SpeculativeConfig.create_draft_parallel_config()` में एक बग था जिसने `decode_context_parallel_size` कॉपी करने में विफल रहा, जिससे ड्राफ्ट परतों ने DCP शार्डिंग को नजरअंदाज कर दिया। इसका परिणाम यह हुआ कि एटेंशन तंत्र स्थानीय कैश फ्रैगमेंट्स को वैश्विक डेटा के रूप में प्रोसेस कर रहे थे, जिसके कारण MTP2 और MTP3 के लिए स्वीकार दरें गिर गईं।

DCP4 और MTP3/MTP4 का उपयोग करते हुए 128K संदर्भ पर प्रदर्शन ~15 tok/s से बढ़कर ~24 tok/s हो गया।
स्थिति प्रति MTP स्वीकार दरें पहले तीन अनुमानित टोकन के लिए क्रमशः 0.90, 0.79 और 0.67 तक पहुंच गईं।
ठीक करने में अपस्ट्रीम तर्क को दर्शाने के लिए एक गायब कॉन्फ़िगरेशन लाइन जोड़ना और vLLM के नए ब्रांच पर रीबेस करना शामिल था।

इस समाधान से संदर्भ लंबाई और गति के बीच पिछले समझौते को खत्म कर दिया गया है, जिससे उपयोगकर्ता इस हार्डवेयर कॉन्फ़िगरेशन पर उच्च थ्रूपुट के साथ पूर्ण 128K संदर्भ चला सकते हैं।