CrossPool: Servicio eficiente de múltiples LLM para modelos MoE en frío mediante la disgregación de KV-Cache y pesos

CrossPool es un motor de servicio diseñado para modelos Mixture-of-Experts (MoE) en frío que disgrega los pesos FFN y el KV-cache en pools separados de memoria GPU para abordar las ineficiencias de memoria en escenarios de solicitudes dispersas. Al consolidar los pesos estáticos y aprovisionar dinámicamente la demanda activa de KV-cache, el sistema tiene como objetivo mejorar la utilización de la memoria GPU y admitir solicitudes de contexto largo con ráfagas.

Separa los pesos FFN y el KV-cache en pools distintos de memoria GPU: un pool de pesos para almacenamiento consolidado y un pool de KV-cache para servicio dinámico.
Utiliza un planificador y virtualizador de KV-cache junto con un programador de pipeline por capas para ocultar las transferencias de estados ocultos.
Emplea kernels persistentes con reducción de control para reducir la sobrecarga de control CPU-GPU.
Supera a los sistemas de servicio multi-LLM basados en kvcached más avanzados, reduciendo el P99 TBT hasta 10.4x.

Este enfoque permite un manejo eficiente de la demanda activa agregada en lugar de reservar la capacidad del peor caso por modelo, apoyando así las cargas de trabajo con ráfagas de manera más efectiva.