Seorang pengguna Reddit menguraikan konfigurasi perangkat keras yang digunakan untuk menjalankan model MiniMax M3 dalam kuantisasi AWQ-INT4 melalui VLLM. Konfigurasi ini mencapai sekitar 30 token per detik untuk satu aliran dan 960 token per detik dalam mode batch.
- 2x RTX Pro 6000 Max-Q (96GB), 8x RTX 3090 (24GB), dan 2x RTX 5090 (32GB) menyediakan VRAM sebesar 448GB.
- Pemrosesan ditangani oleh Threadripper 9960x dengan RAM DDR5 SDIMM 128GB di empat channel.
- Sistem memanfaatkan paralelisme pipa atas grup paralel tensor berukuran 2 untuk mengelola beban kerja.
Pengguna mencatat bahwa meskipun satu juta token konteks dimungkinkan untuk satu pengguna, mereka menargetkan empat aliran simultan meskipun konsumsi daya dan biayanya tinggi.