Ejecutando Llama 3.1 405B en un nodo único de 8xA100 con adaptadores LoRA cargados en caliente

Un usuario demuestra con éxito la ejecución del modelo Llama 3.1 405B cuantizado a AWQ-INT4 en un nodo equipado con ocho GPUs A100 de 80GB, permitiendo cargar y cambiar hasta 30 especialistas ajustados en menos de 200ms.

Modelo base: Llama 3.1 405B (AWQ-INT4, 202GB) con 150GB de VRAM restantes después de cargar los adaptadores y la caché KV.
La latencia de cambio de adaptador es inferior a 200ms mediante la función enable_lora de vLLM, permitiendo cambios rápidos de contexto.
El sistema ha mantenido más de 60 días de tiempo de actividad con cero reinicios de servicio en un entorno de producción.
Las métricas de rendimiento incluyen un tiempo hasta el primer token de 63-66ms, un rendimiento de adaptador único de 18.7-19.2 tok/seg (sostenido), y 7 adaptadores concurrentes logrando 82.9 tok/seg combinados.
La configuración soporta aproximadamente 30 adaptadores de tamaño entre 2-5GB cada uno, entrenados como adaptadores NF4 servidos sobre la base AWQ-INT4 sin reentrenamiento.

Esta configuración aborda dominios de alto riesgo como la salud y el derecho al proporcionar la profundidad de razonamiento de un modelo grande mientras reduce los riesgos de alucinación mediante ajuste fino y destilación, ofreciendo una alternativa rentable a los clústeres H100 para aplicaciones autoalojadas.