CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который разделяет веса FFN и KV-кэш на отдельные пулы памяти GPU для устранения неэффективности использования памяти в сценариях разреженных запросов. За счёт консолидации статических весов и динамического выделения ресурсов под активный спрос на KV-кэш система стремится повысить утилизацию памяти GPU и поддерживать всплесковые запросы с длинным контекстом.

  • Разделяет веса FFN и KV-кэш на отдельные пулы памяти GPU: пул весов для консолидированного хранения и пул KV-кэша для динамического обслуживания.
  • Использует планировщик и виртуализатор KV-кэша вместе с послойным конвейерным планировщиком для скрытия передачи скрытых состояний.
  • Применяет постоянные ядра (persistent kernels) с понижением уровня управления для снижения накладных расходов на управление CPU-GPU.
  • Превосходит современные системы совместной работы нескольких LLM, основанные на kvcached, сокращая P99 TBT до 10.4 раз.

Этот подход позволяет эффективно обрабатывать совокупный активный спрос, а не резервировать максимальную ёмкость для каждой модели, тем самым более эффективно поддерживая всплесковые рабочие нагрузки.