CrossPool: Servicio eficiente de múltiples LLM para modelos MoE en frío mediante la disgregación de KV-Cache y pesos

CrossPool es un motor de servicio diseñado para modelos Mixture-of-Experts (MoE) en frío que aborda las ineficiencias de memoria GPU separando los pesos FFN y el KV-cache en pools distintos. Esta disgregación permite al sistema consolidar los pesos estáticos mientras aprovisiona dinámicamente la demanda activa de KV-cache, superando las limitaciones de la asignación monolítica de memoria.

CrossPool separa los pesos FFN y el KV-cache en dos pools de memoria GPU: un pool de pesos para consolidación y un pool de KV-cache para servicio dinámico.
El sistema emplea un planificador y virtualizador de KV-cache junto con un programador de pipeline capa por capa para ocultar las transferencias de estados ocultos.
Se utilizan kernels persistentes con reducción de control para reducir la sobrecarga de control CPU-GPU.
CrossPool admite solicitudes de contexto largo con ráfagas y reduce el TBT P99 hasta 10.4x en comparación con los sistemas de servicio multi-LLM basados en kvcache más avanzados.

Al habilitar el agrupamiento eficiente de memoria GPU, CrossPool mejora la utilización para modelos en frío con solicitudes dispersas y proporciona un soporte más sólido para cargas de trabajo de inferencia de contexto largo.