llama.cpp b9866：针对288个专家的CUDA topk-moe融合

llama.cpp b9866 版本为拥有288个专家（如 Step-3.7-Flash）的模型启用了 topk-moe 融合，此前这些模型会回退到未融合的路由链。此更改添加了缺失的模板实例化以在资格检查中接受288，因为它是 warp 大小的倍数。

此优化提高了 CUDA 硬件上特定混合专家（MoE）模型在解码阶段的推理速度。