Ejecutando Llama 3.1 405B en un nodo único de 8xA100 con adaptadores LoRA cargados en caliente
Un usuario demuestra con éxito la ejecución del modelo Llama 3.1 405B cuantizado a AWQ-INT4 en un nodo equipado con ocho GPUs A100 de 80GB, permitiendo cargar y cambiar hasta 30 especialistas ajustados en menos de 200ms.