ggml optimiza AMX con aplanamiento de particiones
El proyecto ggml ha optimizado el rendimiento de AMX aplanando la partición sobre n_batch * M, asegurando que todos los hilos participen en la cuantización. Este cambio mejora la velocidad hasta 1.47x en diversos modelos y configuraciones de hardware en plataformas de CPU y GPU, con resultados que muestran ganancias consistentes en el tiempo de inferencia.