본 기사는 혼합 전문가 모델의 프리필-디코드 분리 서빙에서 지연 시간을 개선하도록 설계된 전문가 지역성 인식 디코딩 라우터인 ELDR을 소개합니다. 기존 라우터가 부하만 균형으로 맞추는 것과 달리, ELDR은 프리필 활성화에서 활성화된 전문가를 예측하고 일치하는 시그니처를 가진 워커로 요청을 라우팅합니다.

  • ELDR은 생성 단계의 전문가를 예측하기 위해 프리필 활성화로부터 전문가 시그니처를 구축합니다.
  • 오프라인 균형 K-means는 라우팅 결정을 위해 디코드 워커 전반에 시그니처 공간을 분할합니다.
  • 온라인 지역성 밴드 라우팅은 시그니처와 가장 잘 일치하는 워커 중 가장 부하가 적은 워커로 요청을 지시합니다.
  • KV 캐시와 공동 색인된 시그니처 캐시는 프리픽스 캐싱 하에서 정확한 시그니처를 유지합니다.
  • vLLM에서 최대 40개의 GPU로 평가된 ELDR은 세 가지 MoE 모델과 두 가지 워크로드 전반에 걸쳐 중앙값 TPOT를 5.9~13.9% 감소시켰습니다.

이 접근 방식은 동일하게 로드된 워커 간 다양한 전문가 가중치로 인해 발생하는 지연 시간 격차를 해결하며, MoE 배포를 위해 더 효과적인 부하 균형 전략을 제공합니다.