O artigo apresenta o ELDR, um roteador de decodificação consciente da localidade de especialistas, projetado para melhorar a latência no serviço desagregado de prefill-decode para modelos de mistura de especialistas (MoE). Diferente dos roteadores existentes que apenas equilibram a carga, o ELDR prevê os especialistas ativados a partir das ativações do prefill e roteia as solicitações para workers com assinaturas correspondentes.
- O ELDR constrói uma assinatura de especialista a partir das ativações do prefill para prever os especialistas da fase de geração.
- A partição offline equilibrada por K-means divide o espaço de assinaturas entre os workers de decode para decisões de roteamento.
- O roteamento online por banda de localidade direciona as solicitações ao worker menos carregado entre aqueles que melhor correspondem à assinatura.
- Um cache de assinaturas co-indexado com o cache KV mantém assinaturas exatas sob o cache de prefixos.
- Avaliado em até 40 GPUs no vLLM, o ELDR reduz a TPOT mediana em 5,9-13,9% em três modelos MoE e duas cargas de trabalho.
Esta abordagem aborda as disparidades de latência causadas pelos pesos variáveis dos especialistas em workers igualmente carregados, oferecendo uma estratégia de balanceamento de carga mais eficaz para implantações de MoE.