CrossPool es un motor de servicio diseñado para modelos Mixture-of-Experts (MoE) en frío que aborda las ineficiencias de memoria GPU separando los pesos FFN y el KV-cache en pools distintos. Esta disgregación permite al sistema consolidar los pesos estáticos mientras aprovisiona dinámicamente la demanda activa de KV-cache, superando las limitaciones de la asignación monolítica de memoria.

  • CrossPool separa los pesos FFN y el KV-cache en dos pools de memoria GPU: un pool de pesos para consolidación y un pool de KV-cache para servicio dinámico.
  • El sistema emplea un planificador y virtualizador de KV-cache junto con un programador de pipeline capa por capa para ocultar las transferencias de estados ocultos.
  • Se utilizan kernels persistentes con reducción de control para reducir la sobrecarga de control CPU-GPU.
  • CrossPool admite solicitudes de contexto largo con ráfagas y reduce el TBT P99 hasta 10.4x en comparación con los sistemas de servicio multi-LLM basados en kvcache más avanzados.

Al habilitar el agrupamiento eficiente de memoria GPU, CrossPool mejora la utilización para modelos en frío con solicitudes dispersas y proporciona un soporte más sólido para cargas de trabajo de inferencia de contexto largo.