ELDR: Маршрутизация декодирования с учётом локальности экспертов для PD-разделённого обслуживания MoE

В статье представлен ELDR, маршрутизатор декодирования, учитывающий локальность экспертов, предназначенный для снижения задержек при разделённом обслуживании префилла и декодирования моделей со смесью экспертов (MoE). В отличие от существующих маршрутизаторов, которые только балансируют нагрузку, ELDR предсказывает активированные эксперты по активациям префилла и направляет запросы к рабочим с совпадающими сигнатурами.

ELDR формирует сигнатуру эксперта на основе активаций префилла для предсказания экспертов фазы генерации.
Оффлайн-сбалансированное K-means разделяет пространство сигнатур между рабочими декодирования для принятия решений о маршрутизации.
Онлайн-маршрутизация по локальным диапазонам направляет запросы наименее загруженному рабочему среди тех, которые лучше всего соответствуют сигнатуре.
Кэш сигнатур, совместно индексированный с KV-кэшем, поддерживает точные сигнатуры при префиксном кэшировании.
Оценка на до 40 GPU в vLLM показала, что ELDR снижает медианный TPOT на 5.9–13.9% для трёх моделей MoE и двух рабочих нагрузок.

Этот подход устраняет различия в задержках, вызванные разными весами экспертов при равной загрузке рабочих, предлагая более эффективную стратегию балансировки нагрузки для развертываний MoE.