В статье представлен ELDR, маршрутизатор декодирования, учитывающий локальность экспертов, предназначенный для снижения задержек при разделённом обслуживании префилла и декодирования моделей со смесью экспертов (MoE). В отличие от существующих маршрутизаторов, которые только балансируют нагрузку, ELDR предсказывает активированные эксперты по активациям префилла и направляет запросы к рабочим с совпадающими сигнатурами.

  • ELDR формирует сигнатуру эксперта на основе активаций префилла для предсказания экспертов фазы генерации.
  • Оффлайн-сбалансированное K-means разделяет пространство сигнатур между рабочими декодирования для принятия решений о маршрутизации.
  • Онлайн-маршрутизация по локальным диапазонам направляет запросы наименее загруженному рабочему среди тех, которые лучше всего соответствуют сигнатуре.
  • Кэш сигнатур, совместно индексированный с KV-кэшем, поддерживает точные сигнатуры при префиксном кэшировании.
  • Оценка на до 40 GPU в vLLM показала, что ELDR снижает медианный TPOT на 5.9–13.9% для трёх моделей MoE и двух рабочих нагрузок.

Этот подход устраняет различия в задержках, вызванные разными весами экспертов при равной загрузке рабочих, предлагая более эффективную стратегию балансировки нагрузки для развертываний MoE.