CrossPool: Эффективная совместная работа нескольких LLM для холодных моделей MoE за счёт разделения пулов весов и KV-кэша

CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который разделяет веса FFN и KV-кэш на отдельные пулы памяти GPU для устранения неэффективности использования памяти в сценариях разреженных запросов. За счёт консолидации статических весов и динамического выделения ресурсов под активный спрос на KV-кэш система стремится повысить утилизацию памяти GPU и поддерживать всплесковые запросы с длинным контекстом.

Разделяет веса FFN и KV-кэш на отдельные пулы памяти GPU: пул весов для консолидированного хранения и пул KV-кэша для динамического обслуживания.
Использует планировщик и виртуализатор KV-кэша вместе с послойным конвейерным планировщиком для скрытия передачи скрытых состояний.
Применяет постоянные ядра (persistent kernels) с понижением уровня управления для снижения накладных расходов на управление CPU-GPU.
Превосходит современные системы совместной работы нескольких LLM, основанные на kvcached, сокращая P99 TBT до 10.4 раз.

Этот подход позволяет эффективно обрабатывать совокупный активный спрос, а не резервировать максимальную ёмкость для каждой модели, тем самым более эффективно поддерживая всплесковые рабочие нагрузки.