github llama.cpp · il y a 11 j · inference

ggml optimise AMX avec aplatissement de partition

Traduit de English → Français

Le projet ggml a optimisé les performances d'AMX en aplatissant la partition sur n_batch * M, garantissant que tous les threads participent à la quantification. Cette amélioration augmente la vitesse jusqu'à 1,47x sur divers modèles et configurations matérielles sur les plateformes CPU et GPU, avec des résultats montrant des gains constants dans le temps d'inférence.

Importance 2/3 Confiance 2/3 llama.cpp API & product launches Inference efficiency Open weights

Lire l'original