在6张NVIDIA P40 GPU上运行MiniMax M2.7 Q3 XL

用户详细说明了在六张NVIDIA Tesla P40 GPU上成功部署MiniMax M2.7 Q3_K_XL模型，提供了完整的硬件配置和本地LLM托管的优化推理设置。

硬件设置包括带有修改版BIOS的Asus X99-E-WS主板、Intel Xeon E5-2680 v4 CPU、128GB DDR4 RAM以及通过Gen3 x8通道提供总计144GB VRAM的六张P40 GPU。
基准测试显示，启用Flash Attention并使用F16 KV缓存可获得最佳性能，在32k上下文大小下处理提示词达到每秒105.91个token。
最佳配置使用层拆分模式且平均分配（1/1/1/1/1/1），批次大小为2048，ubatch大小为256；张量拆分导致崩溃，而Q8 KV缓存比F16慢。

本指南为试图利用多GPU并行性在每张卡VRAM有限的消费级硬件上运行大参数模型的用户提供了实用参考。