El artículo presenta ELDR, un enrutador de decodificación consciente de la localidad de expertos diseñado para mejorar la latencia en el servicio desacoplado de prellenado y decodificación para modelos de mezcla de expertos (MoE). A diferencia de los enrutadores existentes que solo equilibran la carga, ELDR predice los expertos activados a partir de las activaciones del prellenado y enruta las solicitudes a trabajadores con firmas coincidentes.

  • ELDR construye una firma de experto a partir de las activaciones del prellenado para predecir los expertos de la fase de generación.
  • La partición offline equilibrada por K-means divide el espacio de firmas entre los trabajadores de decodificación para las decisiones de enrutamiento.
  • El enrutamiento online por banda de localidad dirige las solicitudes al trabajador menos cargado entre aquellos que mejor coinciden con la firma.
  • Una caché de firmas co-indexada con la caché KV mantiene las firmas exactas bajo el almacenamiento en caché de prefijos.
  • Evaluado en hasta 40 GPUs en vLLM, ELDR reduce la TPOT mediana entre un 5.9% y 13.9% en tres modelos MoE y dos cargas de trabajo.

Este enfoque aborda las disparidades de latencia causadas por los pesos variables de los expertos en trabajadores igualmente cargados, ofreciendo una estrategia de equilibrio de carga más efectiva para implementaciones de MoE.