Seorang pengguna mendetailkan penyebaran berhasil model MiniMax M2.7 Q3_K_XL di enam GPU NVIDIA Tesla P40, menyediakan konfigurasi perangkat keras lengkap dan pengaturan inferensi yang dioptimalkan untuk hosting LLM lokal.
- Setup perangkat keras mencakup motherboard Asus X99-E-WS dengan BIOS modifikasi, CPU Intel Xeon E5-2680 v4, RAM DDR4 128GB, dan enam GPU P40 yang menyediakan total VRAM 144GB melalui jalur Gen3 x8.
- Benchmark menunjukkan bahwa menggunakan cache KV F16 dengan Flash Attention aktif menghasilkan kinerja terbaik, mencapai 105.91 token per detik untuk pemrosesan prompt pada ukuran konteks 32k.
- Konfigurasi optimal menggunakan mode split layer dengan distribusi merata (1/1/1/1/1/1), batch size 2048, dan ubatch size 256; splitting tensor menyebabkan crash sementara cache KV Q8 terbukti lebih lambat daripada F16.
Panduan ini menawarkan referensi praktis bagi pengguna yang mencoba menjalankan model parameter besar pada perangkat keras konsumen dengan VRAM terbatas per kartu dengan memanfaatkan paralelisme multi-GPU.