Artikel ini memperkenalkan ELDR, pengalih dekode sadar lokalitas ahli yang dirancang untuk meningkatkan latensi dalam penyajian pemisahan prefill-decode untuk model campuran-ahli. Berbeda dengan pengalih yang ada yang hanya menyeimbangkan beban, ELDR memprediksi ahli yang diaktifkan dari aktivasi prefill dan mengalihkan permintaan ke pekerja dengan tanda tangan yang cocok.

  • ELDR membangun tanda tangan ahli dari aktivasi prefill untuk memprediksi ahli fase generasi.
  • K-means seimbang offline membagi ruang tanda tangan di seluruh pekerja decode untuk keputusan pengalihan.
  • Pengalihan pita lokalitas online mengarahkan permintaan ke pekerja dengan beban terendah di antara yang paling cocok dengan tanda tangan.
  • Cache tanda tangan yang dikoindeks dengan cache KV mempertahankan tanda tangan tepat di bawah caching awalan.
  • Dievaluasi pada hingga 40 GPU dalam vLLM, ELDR mengurangi TPOT median sebesar 5,9-13,9% di seluruh tiga model MoE dan dua beban kerja.

Pendekatan ini mengatasi disparitas latensi yang disebabkan oleh bobot ahli yang bervariasi di antara pekerja dengan beban yang sama, menawarkan strategi penyeimbangan beban yang lebih efektif untuk penyebaran MoE.