Le projet ggml a optimisé les performances d'AMX en aplatissant la partition sur n_batch * M, garantissant que tous les threads participent à la quantification. Cette amélioration augmente la vitesse jusqu'à 1,47x sur divers modèles et configurations matérielles sur les plateformes CPU et GPU, avec des résultats montrant des gains constants dans le temps d'inférence.