用户详细说明了在六张NVIDIA Tesla P40 GPU上成功部署MiniMax M2.7 Q3_K_XL模型,提供了完整的硬件配置和本地LLM托管的优化推理设置。

  • 硬件设置包括带有修改版BIOS的Asus X99-E-WS主板、Intel Xeon E5-2680 v4 CPU、128GB DDR4 RAM以及通过Gen3 x8通道提供总计144GB VRAM的六张P40 GPU。
  • 基准测试显示,启用Flash Attention并使用F16 KV缓存可获得最佳性能,在32k上下文大小下处理提示词达到每秒105.91个token。
  • 最佳配置使用层拆分模式且平均分配(1/1/1/1/1/1),批次大小为2048,ubatch大小为256;张量拆分导致崩溃,而Q8 KV缓存比F16慢。

本指南为试图利用多GPU并行性在每张卡VRAM有限的消费级硬件上运行大参数模型的用户提供了实用参考。