Investigasi lanjutan tentang menjalankan GLM-5.2 NVFP4 pada empat node DGX Spark menyelesaikan bottleneck kinerja sebelumnya di mana tingkat penerimaan tinggi tidak mungkin dicapai pada konteks 128K.

Akar penyebabnya adalah bug di `SpeculativeConfig.create_draft_parallel_config()` vLLM yang gagal menyalin `decode_context_parallel_size`, menyebabkan lapisan draf mengabaikan sharding DCP. Hal ini mengakibatkan mekanisme perhatian memproses fragmen cache lokal sebagai data global, menyebabkan tingkat penerimaan untuk MTP2 dan MTP3 runtuh.

  • Kinerja meningkat dari ~15 tok/s menjadi ~24 tok/s pada konteks 128K menggunakan DCP4 dan MTP3/MTP4.
  • Tingkat penerimaan MTP per posisi mencapai 0.90, 0.79, dan 0.67 untuk tiga token spekulatif pertama.
  • Perbaikan melibatkan penambahan baris konfigurasi yang hilang untuk mencerminkan logika hulu dan melakukan rebasing ke cabang vLLM yang lebih baru.

Resolusi ini menghilangkan trade-off sebelumnya antara panjang konteks dan kecepatan, memungkinkan pengguna menjalankan konteks penuh 128K dengan throughput tinggi pada konfigurasi perangkat keras ini.