Pemrosesan prompt terdisagregasi dengan DGX Spark dan Strix Halo

Seorang pengguna mendemonstrasikan pipeline inferensi terdisagregasi menggunakan DGX Spark untuk prefilling dan kotak Strix Halo untuk generasi token, mencapai percepatan signifikan untuk beban kerja konteks panjang. Dengan mengalihkan pemrosesan prompt yang intensif secara komputasi ke DGX sambil memanfaatkan bandwidth memori Strix untuk decoding, pengaturan ini mengatasi degradasi kinerja yang terlihat saat berjalan sendiri di Strix.

Pipeline menjalankan Qwen 3.5 122B (MTP) GGUF di kedua perangkat menggunakan llama.cpp dan EXO.
Kecepatan generasi token hampir identik antara kedua mesin, dengan keunggulan hanya 13-15% untuk DGX Spark.
Prefilling terdisagregasi menghasilkan percepatan berkisar dari 2.8x hingga 4.4x dibandingkan menjalankan end-to-end di Strix Halo.
Pemrosesan prompt mandiri Strix turun dari 275 t/s pada konteks pendek menjadi 140 t/s pada 127k token, sedangkan DGX menangani beban ini secara efisien.

Pendekatan ini memungkinkan pengguna memanfaatkan perangkat keras prefilling berkinerja tinggi tanpa membuang anggaran komputasinya untuk generasi token, secara efektif menyelesaikan bottleneck dari loop agentic konteks panjang.