CrossPool: Servicio eficiente de múltiples LLM para modelos MoE en frío mediante la disgregación de KV-Cache y pesos
CrossPool es un motor de servicio diseñado para modelos Mixture-of-Experts (MoE) en frío que aborda las ineficiencias de memoria GPU separando los pesos FFN y el KV-cache en pools distintos. Esta disgregación permite al sistema consolidar los pesos estáticos mientras aprovisiona dinámicamente la demanda activa de KV-cache, superando las limitaciones de la asignación monolítica de memoria.