Запуск MiniMax M2.7 Q3 XL на 6 GPU NVIDIA P40

Пользователь описывает успешное развёртывание модели MiniMax M2.7 Q3_K_XL на шести GPU NVIDIA Tesla P40, предоставляя полную конфигурацию оборудования и оптимизированные настройки инференса для локального хостинга LLM.

Аппаратная настройка включает материнскую плату Asus X99-E-WS с модифицированным BIOS, процессор Intel Xeon E5-2680 v4, 128 ГБ ОЗУ DDR4 и шесть GPU P40, обеспечивающие 144 ГБ общей видеопамяти через линии Gen3 x8.
Бенчмарки показывают, что использование KV-кэша F16 с включённым Flash Attention даёт наилучшую производительность, достигая 105.91 токенов в секунду для обработки промпта при размере контекста 32k.
Оптимальная конфигурация использует режим разделения слоёв с равным распределением (1/1/1/1/1/1), размер батча 2048 и размер ubatch 256; разделение тензоров вызывало сбои, а KV-кэш Q8 оказался медленнее F16.

Это руководство предлагает практическую ссылку для пользователей, пытающихся запускать модели с большим количеством параметров на оборудовании потребительского класса с ограниченным объёмом видеопамяти на карту, используя много-GPU параллелизм.