В статье представлен ELDR, маршрутизатор декодирования, учитывающий локальность экспертов, предназначенный для снижения задержек при разделённом обслуживании префилла и декодирования моделей со смесью экспертов (MoE). В отличие от существующих маршрутизаторов, которые только балансируют нагрузку, ELDR предсказывает активированные эксперты по активациям префилла и направляет запросы к рабочим с совпадающими сигнатурами.
- ELDR формирует сигнатуру эксперта на основе активаций префилла для предсказания экспертов фазы генерации.
- Оффлайн-сбалансированное K-means разделяет пространство сигнатур между рабочими декодирования для принятия решений о маршрутизации.
- Онлайн-маршрутизация по локальным диапазонам направляет запросы наименее загруженному рабочему среди тех, которые лучше всего соответствуют сигнатуре.
- Кэш сигнатур, совместно индексированный с KV-кэшем, поддерживает точные сигнатуры при префиксном кэшировании.
- Оценка на до 40 GPU в vLLM показала, что ELDR снижает медианный TPOT на 5.9–13.9% для трёх моделей MoE и двух рабочих нагрузок.
Этот подход устраняет различия в задержках, вызванные разными весами экспертов при равной загрузке рабочих, предлагая более эффективную стратегию балансировки нагрузки для развертываний MoE.