Пользователь описывает успешное развёртывание модели MiniMax M2.7 Q3_K_XL на шести GPU NVIDIA Tesla P40, предоставляя полную конфигурацию оборудования и оптимизированные настройки инференса для локального хостинга LLM.
- Аппаратная настройка включает материнскую плату Asus X99-E-WS с модифицированным BIOS, процессор Intel Xeon E5-2680 v4, 128 ГБ ОЗУ DDR4 и шесть GPU P40, обеспечивающие 144 ГБ общей видеопамяти через линии Gen3 x8.
- Бенчмарки показывают, что использование KV-кэша F16 с включённым Flash Attention даёт наилучшую производительность, достигая 105.91 токенов в секунду для обработки промпта при размере контекста 32k.
- Оптимальная конфигурация использует режим разделения слоёв с равным распределением (1/1/1/1/1/1), размер батча 2048 и размер ubatch 256; разделение тензоров вызывало сбои, а KV-кэш Q8 оказался медленнее F16.
Это руководство предлагает практическую ссылку для пользователей, пытающихся запускать модели с большим количеством параметров на оборудовании потребительского класса с ограниченным объёмом видеопамяти на карту, используя много-GPU параллелизм.