CrossPool: Эффективная совместная работа нескольких LLM для холодных MoE-моделей за счёт разделения KV-кэша и весов

CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который устраняет неэффективность использования памяти GPU путём разделения весов FFN и KV-кэша на отдельные пулы. Такое разделение позволяет системе консолидировать статические веса и динамически выделять ресурсы под активный спрос на KV-кэш, преодолевая ограничения монолитного распределения памяти.

CrossPool разделяет веса FFN и KV-кэш на два пула памяти GPU: пул весов для консолидации и пул KV-кэша для динамического обслуживания.
Система использует планировщик и виртуализатор KV-кэша вместе с послойным конвейерным планировщиком для скрытия передачи скрытых состояний.
Применяются персистентные ядра с понижением уровня управления для снижения накладных расходов на управление между CPU и GPU.
CrossPool поддерживает всплески запросов с длинным контекстом и снижает P99 TBT до 10.4 раз по сравнению с современными системами совместной работы нескольких LLM, основанными на kvcached.

Благодаря эффективному пулированию памяти GPU CrossPool повышает утилизацию для холодных моделей со спорадическими запросами и обеспечивает более надёжную поддержку рабочих нагрузок вывода с длинным контекстом.