La versión b9866 de llama.cpp habilita la fusión topk-moe para modelos con 288 expertos, como Step-3.7-Flash, que anteriormente recurría a una cadena de enrutamiento no fusionada. Este cambio añade la instanciación de plantilla faltante para aceptar 288 en la verificación de elegibilidad, ya que es un múltiplo del tamaño del warp.
- Medido en gfx1151 con Step-3.7-Flash IQ4_XS: el rendimiento de decodificación (tg128) aumentó un +2,4% en contexto superficial.
- El procesamiento de prompts (pp4096) permanece sin cambios ya que la fusión solo afecta al enrutamiento de decodificación.
- La ganancia de rendimiento disminuye con la profundidad; a 30k tokens, los pasos se vuelven limitados por la atención sobre el caché KV.
Esta optimización mejora la velocidad de inferencia para modelos específicos de Mezcla de Expertos (MoE) en hardware CUDA durante la fase de decodificación.