Запуск Llama 3.1 405B на одном узле с 8xA100 с горяче загружаемыми LoRA-адаптерами

Пользователь демонстрирует успешный запуск модели Llama 3.1 405B, квантованной до AWQ-INT4, на одном узле, оснащенном восемью GPU A100 по 80 ГБ, что позволяет загружать и переключать до 30 тонко настроенных специалистов менее чем за 200 мс.

Базовая модель: Llama 3.1 405B (AWQ-INT4, 202 ГБ) с оставшимися 150 ГБ VRAM после загрузки адаптеров и KV-кэша.
Задержка переключения адаптеров составляет менее 200 мс благодаря функции enable_lora в vLLM, что позволяет быстро менять контекст.
Система поддерживает бесперебойную работу более 60 дней без единого перезапуска службы в производственной среде.
Метрики производительности включают время до первого токена 63-66 мс, пропускную способность одного адаптера 18,7-19,2 ток/сек (устойчивую) и 7 одновременных адаптеров с общей пропускной способностью 82,9 ток/сек.
Конфигурация поддерживает около 30 адаптеров размером от 2 до 5 ГБ каждый, обученных как NF4-адаптеры и обслуживаемых на базе AWQ-INT4 без повторного обучения.

Эта конфигурация решает задачи в критически важных областях, таких как здравоохранение и юриспруденция, обеспечивая глубину рассуждений большой модели и снижая риски галлюцинаций за счет тонкой настройки и дистилляции, предлагая экономичную альтернативу кластерам H100 для самодостаточных приложений.