llama.cpp b9866: fusi topk-moe CUDA untuk 288 ahli

Rilis llama.cpp b9866 mengaktifkan fusi topk-moe untuk model dengan 288 ahli, seperti Step-3.7-Flash, yang sebelumnya jatuh kembali ke rantai perutean tanpa fusi. Perubahan ini menambahkan instansiasi templat yang hilang untuk menerima 288 dalam pemeriksaan kelayakan, karena itu adalah kelipatan ukuran warp.

Diukur pada gfx1151 dengan Step-3.7-Flash IQ4_XS, throughput dekoding (tg128) meningkat sebesar +2,4% pada konteks dangkal.
Pemrosesan prompt (pp4096) tetap tidak berubah karena fusi hanya mempengaruhi perutean dekoding.
Peningkatan kinerja memudar seiring kedalaman; pada 30k token, langkah-langkah menjadi dibatasi oleh perhatian di atas cache KV.

Optimasi ini meningkatkan kecepatan inferensi untuk model Mixture-of-Experts tertentu pada perangkat keras CUDA selama fase dekoding.