Запуск Llama 3.1 405B на одном узле с 8xA100 с горяче загружаемыми LoRA-адаптерами
Пользователь демонстрирует успешный запуск модели Llama 3.1 405B, квантованной до AWQ-INT4, на одном узле, оснащенном восемью GPU A100 по 80 ГБ, что позволяет загружать и переключать до 30 тонко настроенных специалистов менее чем за 200 мс.