Investigasi lanjutan tentang menjalankan GLM-5.2 NVFP4 pada empat node DGX Spark menyelesaikan bottleneck kinerja sebelumnya di mana tingkat penerimaan tinggi tidak mungkin dicapai pada konteks 128K.
Akar penyebabnya adalah bug di `SpeculativeConfig.create_draft_parallel_config()` vLLM yang gagal menyalin `decode_context_parallel_size`, menyebabkan lapisan draf mengabaikan sharding DCP. Hal ini mengakibatkan mekanisme perhatian memproses fragmen cache lokal sebagai data global, menyebabkan tingkat penerimaan untuk MTP2 dan MTP3 runtuh.
- Kinerja meningkat dari ~15 tok/s menjadi ~24 tok/s pada konteks 128K menggunakan DCP4 dan MTP3/MTP4.
- Tingkat penerimaan MTP per posisi mencapai 0.90, 0.79, dan 0.67 untuk tiga token spekulatif pertama.
- Perbaikan melibatkan penambahan baris konfigurasi yang hilang untuk mencerminkan logika hulu dan melakukan rebasing ke cabang vLLM yang lebih baru.
Resolusi ini menghilangkan trade-off sebelumnya antara panjang konteks dan kecepatan, memungkinkan pengguna menjalankan konteks penuh 128K dengan throughput tinggi pada konfigurasi perangkat keras ini.