CrossPool: Servicio eficiente de múltiples LLM para modelos MoE en frío mediante la disgregación de KV-Cache y pesos
CrossPool es un motor de servicio diseñado para modelos Mixture-of-Experts (MoE) en frío que disgrega los pesos FFN y el KV-cache en pools separados de memoria GPU para abordar las ineficiencias de memoria en escenarios de solicitudes dispersas. Al consolidar los pesos estáticos y aprovisionar dinámicamente la demanda activa de KV-cache, el sistema tiene como objetivo mejorar la utilización de la memoria GPU y admitir solicitudes de contexto largo con ráfagas.