CrossPool: Эффективная совместная работа нескольких LLM для холодных MoE-моделей за счёт разделения KV-кэша и весов
CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который устраняет неэффективность использования памяти GPU путём разделения весов FFN и KV-кэша на отдельные пулы. Такое разделение позволяет системе консолидировать статические веса и динамически выделять ресурсы под активный спрос на KV-кэш, преодолевая ограничения монолитного распределения памяти.