MiniMax M3 家用 GPU 集群配置规格

一位 Reddit 用户详细说明了通过 VLLM 以 AWQ-INT4 量化运行 MiniMax M3 模型所使用的硬件配置。该设置在单流模式下可实现约每秒 30 个 token，在批处理模式下可实现每秒 960 个 token。

2x RTX Pro 6000 Max-Q (96GB)、8x RTX 3090 (24GB) 和 2x RTX 5090 (32GB) 提供 448GB VRAM。
处理由 Threadripper 9960x 完成，配备 128GB DDR5 SDIMM RAM，跨四个通道。
系统利用管道并行（pipeline parallelism）在大小为 2 的张量并行组（tensor parallel groups）之上管理负载。

用户指出，虽然单个用户可能支持一百万个上下文 token，但他们旨在实现四个并发流，尽管功耗和成本很高。