DGX SparkとStrix Haloによる分散プロンプト処理

あるユーザーが、prefillingにDGX Sparkを、トークン生成にStrix Haloボックスを用いた分散推論パイプラインを実証し、ロングコンテキストワークロードで大幅な高速化を実現しました。計算集約的なプロンプト処理をDGXにオフロードし、Strixのメモリ帯域幅をデコーディングに活用することで、Strix単独で実行した場合に見られるパフォーマンス低下を克服しています。

パイプラインはllama.cppとEXOを使用して、Qwen 3.5 122B (MTP) GGUFを両デバイス間で実行しています。
2台のマシン間のトークン生成速度はほぼ同等で、DGX Sparkにわずか13〜15%の優位性があります。
分散prefillingにより、Strix Halo上でエンドツーエンドで実行する場合と比較して、2.8倍から4.4倍の高速化が得られました。
Strix単独でのプロンプト処理は、短いコンテキストでは275 t/sですが、127kトークンでは140 t/sに低下するのに対し、DGXはこの負荷を効率的に処理します。

このアプローチにより、ユーザーは高性能なprefillingハードウェアを活用しつつ、その計算リソースをトークン生成に無駄遣いすることなく、ロングコンテキストエージェントループのボトルネックを実質的に解決できます。