A versão b9866 do llama.cpp habilita a fusão topk-moe para modelos com 288 especialistas, como o Step-3.7-Flash, que anteriormente recuava para uma cadeia de roteamento não fusionada. Esta alteração adiciona a instanciação de modelo faltante para aceitar 288 na verificação de elegibilidade, pois é um múltiplo do tamanho do warp.

  • Medido no gfx1151 com Step-3.7-Flash IQ4_XS: a taxa de decodificação (tg128) aumentou +2,4% em contexto superficial.
  • O processamento de prompts (pp4096) permanece inalterado, pois a fusão afeta apenas o roteamento de decodificação.
  • O ganho de desempenho diminui com a profundidade; aos 30k tokens, os passos tornam-se limitados pela atenção sobre o cache KV.

Esta otimização melhora a velocidade de inferência para modelos específicos de Mixture-of-Experts em hardware CUDA durante a fase de decodificação.