github llama.cpp · há 11 d · inference

ggml otimiza AMX com achatamento de partição

Traduzido do English → Português (BR)

O projeto ggml otimizou o desempenho do AMX achatando a partição sobre n_batch * M, garantindo que todos os threads participem da quantização. Essa mudança melhora a velocidade em até 1,47x em vários modelos e configurações de hardware nas plataformas de CPU e GPU, com resultados mostrando ganhos consistentes no tempo de inferência.

Importância 2/3 Confiança 2/3 llama.cpp API & product launches Inference efficiency Open weights

Ler original