Proyek ggml telah mengoptimalkan kinerja AMX dengan melakukan flattening pada partisi atas n_batch * M, memastikan semua thread berpartisipasi dalam kuantisasi. Perubahan ini meningkatkan kecepatan hingga 1.47x di berbagai model dan konfigurasi perangkat keras pada platform CPU dan GPU, dengan hasil menunjukkan peningkatan konsisten dalam waktu inferensi.
ggml mengoptimalkan AMX dengan flattening partisi
Diterjemahkan dari English → Bahasa Indonesia