GLM-5.2 NVFP4 pada empat DGX Sparks — misteri MTP terpecahkan, kini ~24 tok/s pada konteks 128K

Investigasi lanjutan tentang menjalankan GLM-5.2 NVFP4 pada empat node DGX Spark menyelesaikan bottleneck kinerja sebelumnya di mana tingkat penerimaan tinggi tidak mungkin dicapai pada konteks 128K.

Akar penyebabnya adalah bug di `SpeculativeConfig.create_draft_parallel_config()` vLLM yang gagal menyalin `decode_context_parallel_size`, menyebabkan lapisan draf mengabaikan sharding DCP. Hal ini mengakibatkan mekanisme perhatian memproses fragmen cache lokal sebagai data global, menyebabkan tingkat penerimaan untuk MTP2 dan MTP3 runtuh.

Kinerja meningkat dari ~15 tok/s menjadi ~24 tok/s pada konteks 128K menggunakan DCP4 dan MTP3/MTP4.
Tingkat penerimaan MTP per posisi mencapai 0.90, 0.79, dan 0.67 untuk tiga token spekulatif pertama.
Perbaikan melibatkan penambahan baris konfigurasi yang hilang untuk mencerminkan logika hulu dan melakukan rebasing ke cabang vLLM yang lebih baru.

Resolusi ini menghilangkan trade-off sebelumnya antara panjang konteks dan kecepatan, memungkinkan pengguna menjalankan konteks penuh 128K dengan throughput tinggi pada konfigurasi perangkat keras ini.