一位 Reddit 用户详细说明了通过 VLLM 以 AWQ-INT4 量化运行 MiniMax M3 模型所使用的硬件配置。该设置在单流模式下可实现约每秒 30 个 token,在批处理模式下可实现每秒 960 个 token。

  • 2x RTX Pro 6000 Max-Q (96GB)、8x RTX 3090 (24GB) 和 2x RTX 5090 (32GB) 提供 448GB VRAM。
  • 处理由 Threadripper 9960x 完成,配备 128GB DDR5 SDIMM RAM,跨四个通道。
  • 系统利用管道并行(pipeline parallelism)在大小为 2 的张量并行组(tensor parallel groups)之上管理负载。

用户指出,虽然单个用户可能支持一百万个上下文 token,但他们旨在实现四个并发流,尽管功耗和成本很高。