DGX Spark और Strix Halo के साथ disaggregated prompt प्रोसेसिंग

एक उपयोगकर्ता DGX Spark का उपयोग prefilling के लिए और Strix Halo बॉक्स का उपयोग token जनरेशन के लिए करके एक disaggregated inference pipeline का प्रदर्शन करता है, लंबे-संदर्भ कार्यभारों के लिए महत्वपूर्ण गति वृद्धि हासिल करता है। DGX पर कंप्यूटेशनली इंटेंसिव prompt प्रोसेसिंग को offload करके और decoding के लिए Strix की मेमोरी बैंडविड्थ का लाभ उठाकर, सेटअप Strix पर अकेले चलते समय देखी गई प्रदर्शन ह्रास को दूर करता है।

pipeline llama.cpp और EXO का उपयोग करके दोनों डिवाइसों पर Qwen 3.5 122B (MTP) GGUF चलाता है।
दोनों मशीनों के बीच token जनरेशन गति लगभग समान है, DGX Spark के लिए केवल 13-15% की बढ़त है।
Strix Halo पर end-to-end चलाने की तुलना में disaggregated prefilling से 2.8x से 4.4x तक गति वृद्धि मिलती है।
Strix का standalone prompt प्रोसेसिंग छोटे संदर्भों पर 275 t/s से 127k tokens पर 140 t/s तक गिर जाता है, जबकि DGX इस लोड को कुशलता से संभालता है।

यह दृष्टिकोण उपयोगकर्ताओं को उच्च-प्रदर्शन prefilling हार्डवेयर का उपयोग करने की अनुमति देता है बिना token जनरेशन पर अपने कंप्यूट बजेट को बर्बाद किए, लंबे-संदर्भ agentic loops के bottleneck को प्रभावी ढंग से हल करता है।