Um usuário detalha o deploy bem-sucedido do modelo MiniMax M2.7 Q3_K_XL em seis GPUs NVIDIA Tesla P40, fornecendo uma configuração de hardware completa e configurações de inferência otimizadas para hospedagem local de LLM.
- A configuração de hardware inclui uma placa-mãe Asus X99-E-WS com BIOS modificado, CPU Intel Xeon E5-2680 v4, 128GB de RAM DDR4 e seis GPUs P40 fornecendo 144GB de VRAM total via lanes Gen3 x8.
- Os benchmarks mostram que usar o cache KV F16 com Flash Attention habilitado gera o melhor desempenho, alcançando 105.91 tokens por segundo para processamento de prompt com um tamanho de contexto de 32k.
- A configuração ótima usa o modo de divisão de camadas com distribuição igual (1/1/1/1/1/1), batch size 2048 e ubatch size 256; a divisão de tensores causou crashes enquanto o cache KV Q8 provou ser mais lento que F16.
Este guia oferece uma referência prática para usuários tentando executar modelos com grandes parâmetros em hardware de grau consumidor com VRAM limitada por placa, alavancando o paralelismo multi-GPU.