Spesifikasi Kluster GPU Rumahan untuk MiniMax M3

Seorang pengguna Reddit menguraikan konfigurasi perangkat keras yang digunakan untuk menjalankan model MiniMax M3 dalam kuantisasi AWQ-INT4 melalui VLLM. Konfigurasi ini mencapai sekitar 30 token per detik untuk satu aliran dan 960 token per detik dalam mode batch.

2x RTX Pro 6000 Max-Q (96GB), 8x RTX 3090 (24GB), dan 2x RTX 5090 (32GB) menyediakan VRAM sebesar 448GB.
Pemrosesan ditangani oleh Threadripper 9960x dengan RAM DDR5 SDIMM 128GB di empat channel.
Sistem memanfaatkan paralelisme pipa atas grup paralel tensor berukuran 2 untuk mengelola beban kerja.

Pengguna mencatat bahwa meskipun satu juta token konteks dimungkinkan untuk satu pengguna, mereka menargetkan empat aliran simultan meskipun konsumsi daya dan biayanya tinggi.