4台のDGX SparkでのGLM-5.2 NVFP4 — MTPの謎は解決、128Kコンテキストで~24 tok/s

4台のDGX SparkノードでGLM-5.2 NVFP4を実行するフォローアップ調査により、128Kコンテキストで高い受容率が不可能だった以前の性能ボトルネックが解消されました。

根本原因は、vLLMの `SpeculativeConfig.create_draft_parallel_config()` のバグで、`decode_context_parallel_size` がコピーされず、ドラフト層がDCPシャディングを無視していました。これにより、アテンション機構がローカルキャッシュフラグメントをグローバルデータとして処理し、MTP2およびMTP3の受容率が低下しました。

DCP4とMTP3/MTP4を使用することで、128Kコンテキストで~15 tok/sから~24 tok/sに性能が向上。
最初の3つの推測トークンに対する位置ごとのMTP受容率は0.90、0.79、0.67に達しました。
修正には、アップストリームロジックを反映する欠落した設定行の追加と、より新しいvLLMブランチへのリベースが含まれます。

この解決により、コンテキスト長と速度の間の以前のトレードオフが解消され、ユーザーはこのハードウェア構成で高いスループットで完全な128Kコンテキストを実行できるようになります。