本文介绍了ELDR,一种专家局部感知解码路由器,旨在改善混合专家(MoE)模型在预填充-解码解耦服务中的延迟。与仅平衡负载的现有路由器不同,ELDR根据预填充激活预测激活的专家,并将请求路由到具有匹配签名的工作节点。

  • ELDR 从预填充激活构建专家签名,以预测生成阶段的专家。
  • 离线平衡 K-means 在解码工作节点间划分签名空间,用于路由决策。
  • 在线局部性带宽路由将请求导向与签名最匹配的、负载最低的工作节点。
  • 与 KV 缓存共同索引的签名缓存在前缀缓存下保持精确签名。
  • 在 vLLM 上使用多达 40 个 GPU 进行评估,ELDR 在三个 MoE 模型和两种工作负载上将中位 TPOT 降低了 5.9%-13.9%。

该方法解决了由于负载均衡工作节点上专家权重不同而导致的延迟差异,为 MoE 部署提供了更有效的负载均衡策略。