Un usuario demuestra con éxito la ejecución del modelo Llama 3.1 405B cuantizado a AWQ-INT4 en un nodo equipado con ocho GPUs A100 de 80GB, permitiendo cargar y cambiar hasta 30 especialistas ajustados en menos de 200ms.
- Modelo base: Llama 3.1 405B (AWQ-INT4, 202GB) con 150GB de VRAM restantes después de cargar los adaptadores y la caché KV.
- La latencia de cambio de adaptador es inferior a 200ms mediante la función enable_lora de vLLM, permitiendo cambios rápidos de contexto.
- El sistema ha mantenido más de 60 días de tiempo de actividad con cero reinicios de servicio en un entorno de producción.
- Las métricas de rendimiento incluyen un tiempo hasta el primer token de 63-66ms, un rendimiento de adaptador único de 18.7-19.2 tok/seg (sostenido), y 7 adaptadores concurrentes logrando 82.9 tok/seg combinados.
- La configuración soporta aproximadamente 30 adaptadores de tamaño entre 2-5GB cada uno, entrenados como adaptadores NF4 servidos sobre la base AWQ-INT4 sin reentrenamiento.
Esta configuración aborda dominios de alto riesgo como la salud y el derecho al proporcionar la profundidad de razonamiento de un modelo grande mientras reduce los riesgos de alucinación mediante ajuste fino y destilación, ofreciendo una alternativa rentable a los clústeres H100 para aplicaciones autoalojadas.