Especificaciones del clúster de GPU doméstico para MiniMax M3

Un usuario de Reddit detalla la configuración de hardware utilizada para ejecutar el modelo MiniMax M3 en cuantización AWQ-INT4 a través de VLLM. La configuración logra aproximadamente 30 tokens por segundo para un solo flujo y 960 tokens por segundo en modo por lotes.

2x RTX Pro 6000 Max-Q (96 GB), 8x RTX 3090 (24 GB) y 2x RTX 5090 (32 GB) proporcionan 448 GB de VRAM.
El procesamiento es manejado por un Threadripper 9960x con 128 GB de RAM DDR5 SDIMM en cuatro canales.
El sistema utiliza paralelismo de tubería sobre grupos de paralelismo de tensor de 2 para gestionar la carga de trabajo.

El usuario señala que, aunque es posible un millón de tokens de contexto para un solo usuario, apunta a cuatro flujos concurrentes a pesar del alto consumo de energía y costo.