使用 DGX Spark 和 Strix Halo 进行解耦的提示处理

用户演示了一个解耦的推理流水线，使用 DGX Spark 进行预填充（prefilling），使用 Strix Halo 盒子进行令牌生成，为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX，并利用 Strix 的内存带宽进行解码，该设置克服了仅在 Strix 上单独运行时看到的性能下降。

该流水线使用 llama.cpp 和 EXO 在两个设备上运行 Qwen 3.5 122B (MTP) GGUF。
两台机器之间的令牌生成速度几乎相同，DGX Spark 仅具有 13-15% 的优势。
与在 Strix Halo 上端到端运行相比，解耦的预填充带来了 2.8x 到 4.4x 的加速。
Strix 的独立提示处理从短上下文的 275 t/s 下降到 127k 令牌的 140 t/s，而 DGX 能高效处理此负载。

这种方法允许用户利用高性能预填充硬件，而不会将其计算预算浪费在令牌生成上，有效地解决了长上下文智能体循环的瓶颈问题。