あるユーザーが、prefillingにDGX Sparkを、トークン生成にStrix Haloボックスを用いた分散推論パイプラインを実証し、ロングコンテキストワークロードで大幅な高速化を実現しました。計算集約的なプロンプト処理をDGXにオフロードし、Strixのメモリ帯域幅をデコーディングに活用することで、Strix単独で実行した場合に見られるパフォーマンス低下を克服しています。
- パイプラインはllama.cppとEXOを使用して、Qwen 3.5 122B (MTP) GGUFを両デバイス間で実行しています。
- 2台のマシン間のトークン生成速度はほぼ同等で、DGX Sparkにわずか13〜15%の優位性があります。
- 分散prefillingにより、Strix Halo上でエンドツーエンドで実行する場合と比較して、2.8倍から4.4倍の高速化が得られました。
- Strix単独でのプロンプト処理は、短いコンテキストでは275 t/sですが、127kトークンでは140 t/sに低下するのに対し、DGXはこの負荷を効率的に処理します。
このアプローチにより、ユーザーは高性能なprefillingハードウェアを活用しつつ、その計算リソースをトークン生成に無駄遣いすることなく、ロングコンテキストエージェントループのボトルネックを実質的に解決できます。