O projeto ggml otimizou o desempenho do AMX achatando a partição sobre n_batch * M, garantindo que todos os threads participem da quantização. Essa mudança melhora a velocidade em até 1,47x em vários modelos e configurações de hardware nas plataformas de CPU e GPU, com resultados mostrando ganhos consistentes no tempo de inferência.
ggml otimiza AMX com achatamento de partição
Traduzido do English → Português (BR)