Le projet ggml a optimisé les performances d'AMX en aplatissant la partition sur n_batch * M, garantissant que tous les threads participent à la quantification. Cette amélioration augmente la vitesse jusqu'à 1,47x sur divers modèles et configurations matérielles sur les plateformes CPU et GPU, avec des résultats montrant des gains constants dans le temps d'inférence.
ggml optimise AMX avec aplatissement de partition
Traduit de English → Français