Rilis llama.cpp b9866 mengaktifkan fusi topk-moe untuk model dengan 288 ahli, seperti Step-3.7-Flash, yang sebelumnya jatuh kembali ke rantai perutean tanpa fusi. Perubahan ini menambahkan instansiasi templat yang hilang untuk menerima 288 dalam pemeriksaan kelayakan, karena itu adalah kelipatan ukuran warp.

  • Diukur pada gfx1151 dengan Step-3.7-Flash IQ4_XS, throughput dekoding (tg128) meningkat sebesar +2,4% pada konteks dangkal.
  • Pemrosesan prompt (pp4096) tetap tidak berubah karena fusi hanya mempengaruhi perutean dekoding.
  • Peningkatan kinerja memudar seiring kedalaman; pada 30k token, langkah-langkah menjadi dibatasi oleh perhatian di atas cache KV.

Optimasi ini meningkatkan kecepatan inferensi untuk model Mixture-of-Experts tertentu pada perangkat keras CUDA selama fase dekoding.