LordNeel merilis kuantisasi GGUF dari InternScience's 35B Agents-A1 dengan NVFP4 dan MTP speculative decoding

LordNeel telah mempublikasikan kuantisasi GGUF dari Agents-A1 milik InternScience, sebuah model agen MoE 35B yang berbasis pada Qwen3.5-MoE. Rilis ini mencakup format NVFP4 yang dioptimalkan untuk GPU Blackwell dan mengintegrasikan speculative decoding prediksi multi-token (MTP) untuk meningkatkan kecepatan inferensi.

Model ini memiliki ~3B parameter aktif di seluruh 256 expert dengan jendela konteks 256K, dirancang untuk pencarian jangka panjang dan pemanggilan alat.
Kualitas diukur menggunakan divergensi KL atas distribusi token berikutnya top-64 pada 32 prompt, membandingkan berbagai tingkat kuantisasi terhadap BF16.
Build NVFP4 memerlukan GPU Blackwell dengan build yang mampu FP4, sementara format lain seperti IQ4_XS dan Q5_K_M menawarkan kompresi atau kesetiaan mendekati BF16.
Speculative decoding MTP disisipkan dari checkpoint sidecar terpisah, menghasilkan peningkatan throughput hingga 1.22× pada serving pengguna tunggal.
Tingkat penerimaan draft mencapai 91.5% untuk Q4_K_M-MTP dengan n_max=1, sambil mempertahankan fungsionalitas teks saja tanpa dukungan visi.

Rilis ini memberikan opsi yang dioptimalkan kepada pengguna untuk menjalankan model Agents-A1 secara lokal, menyeimbangkan ukuran, kualitas, dan kecepatan melalui teknik kuantisasi spesifik dan speculative decoding.