Un usuario demuestra con éxito la ejecución del modelo Llama 3.1 405B cuantizado a AWQ-INT4 en un nodo equipado con ocho GPUs A100 de 80GB, permitiendo cargar y cambiar hasta 30 especialistas ajustados en menos de 200ms.

  • Modelo base: Llama 3.1 405B (AWQ-INT4, 202GB) con 150GB de VRAM restantes después de cargar los adaptadores y la caché KV.
  • La latencia de cambio de adaptador es inferior a 200ms mediante la función enable_lora de vLLM, permitiendo cambios rápidos de contexto.
  • El sistema ha mantenido más de 60 días de tiempo de actividad con cero reinicios de servicio en un entorno de producción.
  • Las métricas de rendimiento incluyen un tiempo hasta el primer token de 63-66ms, un rendimiento de adaptador único de 18.7-19.2 tok/seg (sostenido), y 7 adaptadores concurrentes logrando 82.9 tok/seg combinados.
  • La configuración soporta aproximadamente 30 adaptadores de tamaño entre 2-5GB cada uno, entrenados como adaptadores NF4 servidos sobre la base AWQ-INT4 sin reentrenamiento.

Esta configuración aborda dominios de alto riesgo como la salud y el derecho al proporcionar la profundidad de razonamiento de un modelo grande mientras reduce los riesgos de alucinación mediante ajuste fino y destilación, ofreciendo una alternativa rentable a los clústeres H100 para aplicaciones autoalojadas.