github llama.cpp · 11 hari lalu · inference

ggml mengoptimalkan AMX dengan flattening partisi

Diterjemahkan dari English → Bahasa Indonesia

Proyek ggml telah mengoptimalkan kinerja AMX dengan melakukan flattening pada partisi atas n_batch * M, memastikan semua thread berpartisipasi dalam kuantisasi. Perubahan ini meningkatkan kecepatan hingga 1.47x di berbagai model dan konfigurasi perangkat keras pada platform CPU dan GPU, dengan hasil menunjukkan peningkatan konsisten dalam waktu inferensi.

Kepentingan 2/3 Kepercayaan 2/3 llama.cpp API & product launches Inference efficiency Open weights

Baca aslinya