L'article présente ELDR, un routeur de décodage conscient de la localité des experts conçu pour améliorer la latence dans le service préfill-décode désagrégé pour les modèles à mélange d'experts. Contrairement aux routeurs existants qui équilibrent uniquement la charge, ELDR prédit les experts activés à partir des activations de préfill et achemine les requêtes vers des workers avec des signatures correspondantes.

  • ELDR construit une signature d'expert à partir des activations de préfill pour prédire les experts de la phase de génération.
  • Le K-means équilibré hors ligne partitionne l'espace de signature sur les workers de décodage pour les décisions de routage.
  • Le routage par bande de localité en ligne dirige les requêtes vers le worker le moins chargé parmi ceux qui correspondent le mieux à la signature.
  • Un cache de signature co-indexé avec le cache KV maintient des signatures exactes sous la mise en cache de préfixe.
  • Évalué sur jusqu'à 40 GPU dans vLLM, ELDR réduit la TPOT médiane de 5,9 à 13,9 % sur trois modèles MoE et deux charges de travail.

Cette approche comble les disparités de latence causées par les poids d'experts variables dans des workers également chargés, offrant une stratégie d'équilibrage de charge plus efficace pour les déploiements MoE.