Un utilisateur détaille le déploiement réussi du modèle MiniMax M2.7 Q3_K_XL sur six GPU NVIDIA Tesla P40, fournissant une configuration matérielle complète et des paramètres d'inférence optimisés pour l'hébergement local de LLM.
- La configuration matérielle comprend une carte mère Asus X99-E-WS avec un BIOS modifié, un CPU Intel Xeon E5-2680 v4, 128 Go de RAM DDR4 et six GPU P40 offrant 144 Go de VRAM total via des voies Gen3 x8.
- Les benchmarks montrent que l'utilisation du cache KV F16 avec Flash Attention activé offre les meilleures performances, atteignant 105,91 tokens par seconde pour le traitement des prompts avec une taille de contexte de 32k.
- La configuration optimale utilise le mode de répartition des couches avec une distribution égale (1/1/1/1/1/1), une taille de lot de 2048 et une taille d'ubatch de 256 ; la séparation des tenseurs a provoqué des plantages, tandis que le cache KV Q8 s'est révélé plus lent que le F16.
Ce guide offre une référence pratique pour les utilisateurs tentant d'exécuter des modèles à grands paramètres sur du matériel grand public avec une VRAM limitée par carte en exploitant le parallélisme multi-GPU.