github llama.cpp · il y a 12 j · inference

ggml-cpu ajoute le support des queues K pour Power10 MMA Q8/Q4

Traduit de English → Français

ggml-cpu prend désormais en charge les queues K dans la multiplication matricielle MMA Q8/Q4 de Power10, supprimant l'exigence selon laquelle K doit être divisible par kc. Cela permet à davantage de charges de travail d'utiliser le noyau MMA et réduit le recours à mnpack.

Importance 0/3 Confiance 2/3 llama.cpp

Lire l'original