用户演示了一个解耦的推理流水线,使用 DGX Spark 进行预填充(prefilling),使用 Strix Halo 盒子进行令牌生成,为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX,并利用 Strix 的内存带宽进行解码,该设置克服了仅在 Strix 上单独运行时看到的性能下降。
- 该流水线使用 llama.cpp 和 EXO 在两个设备上运行 Qwen 3.5 122B (MTP) GGUF。
- 两台机器之间的令牌生成速度几乎相同,DGX Spark 仅具有 13-15% 的优势。
- 与在 Strix Halo 上端到端运行相比,解耦的预填充带来了 2.8x 到 4.4x 的加速。
- Strix 的独立提示处理从短上下文的 275 t/s 下降到 127k 令牌的 140 t/s,而 DGX 能高效处理此负载。
这种方法允许用户利用高性能预填充硬件,而不会将其计算预算浪费在令牌生成上,有效地解决了长上下文智能体循环的瓶颈问题。