本記事は、混合エキスパートモデルのプリフィル・デコード非統合サービングにおけるレイテンシを改善するために設計された、エキスパート局所性対応デコードルーターであるELDRを紹介します。既存のルーターが負荷のみをバランスさせるのとは異なり、ELDRはプリフィル活性化から活性化されたエキスパートを予測し、一致するシグネチャを持つワーカーにリクエストをルーティングします。
- ELDRは生成フェーズのエキスパートを予測するために、プリフィル活性化からエキスパートシグネチャを構築します。
- オフライン平衡K-meansは、ルーティング判断のためにデコードワーカー全体にシグネチャ空間を分割します。
- オンライン局所性バンドルーティングは、シグネチャに最もよく一致するワーカーの中で最も負荷の少ないワーカーにリクエストを向けます。
- KVキャッシュと共索引付けされたシグネチャキャッシュは、プレフィックスキャッシングの下で正確なシグネチャを維持します。
- vLLMで最大40GPUで評価され、ELDRは3つのMoEモデルと2つのワークロード全体で中央値TPOTを5.9〜13.9%削減しました。
このアプローチは、同様に負荷のかかったワーカーにおける異なるエキスパート重みによって引き起こされるレイテンシの格差に対処し、MoE展開に対してより効果的な負荷分散戦略を提供します。