Пользователь Reddit подробно описал конфигурацию оборудования, используемую для запуска модели MiniMax M3 в квантовании AWQ-INT4 через VLLM. Настройка обеспечивает примерно 30 токенов в секунду для одного потока и 960 токенов в секунду в пакетном режиме.

  • 2x RTX Pro 6000 Max-Q (96 ГБ), 8x RTX 3090 (24 ГБ) и 2x RTX 5090 (32 ГБ) обеспечивают 448 ГБ VRAM.
  • Обработку выполняет процессор Threadripper 9960x с 128 ГБ оперативной памяти DDR5 SDIMM в четырехканальном режиме.
  • Система использует конвейерное распараллеливание (pipeline parallelism) поверх групп тензорного распараллеливания (tensor parallel groups) по 2 для управления нагрузкой.

Пользователь отмечает, что хотя один миллион контекстных токенов возможен для одного пользователя, он стремится к четырем одновременным потокам, несмотря на высокое энергопотребление и стоимость.