La version b9866 de llama.cpp active la fusion topk-moe pour les modèles avec 288 experts, tels que Step-3.7-Flash, qui basculaient auparavant sur une chaîne de routage non fusionnée. Ce changement ajoute l'instanciation de modèle manquante pour accepter 288 dans la vérification d'éligibilité, car c'est un multiple de la taille du warp.

  • Mesuré sur gfx1151 avec Step-3.7-Flash IQ4_XS, le débit de décodage (tg128) a augmenté de +2,4 % à contexte superficiel.
  • Le traitement des invites (pp4096) reste inchangé car la fusion n'affecte que le routage du décodage.
  • Le gain de performance s'estompe avec la profondeur ; à 30k tokens, les étapes deviennent limitées par l'attention sur le cache KV.

Cette optimisation améliore la vitesse d'inférence pour des modèles spécifiques à mélange d'experts sur du matériel CUDA pendant la phase de décodage.