Rilis llama.cpp b9820 memperkenalkan peningkatan kinerja dengan reintroduksi sinkronisasi yang lebih sedikit selama komputasi terbagi, khususnya menargetkan backend CUDA. Pembaruan ini juga menyediakan biner pra-dibangun untuk macOS, Linux, Windows, Android, dan openEuler di seluruh CPU, GPU, dan akselerator perangkat keras khusus.
- Meningkatkan kinerja CUDA melalui pengurangan sinkronisasi antar token.
- Menambahkan kemampuan salin CPU-ke-CUDA ke ggml_backend_cuda_cpy_tensor_async().
- Melonggarkan persyaratan sinkronisasi antara salinan input pada backend yang didukung seperti CUDA.
- Menukar salin sinkron dengan fungsi salin asinkron dan menambahkan pengawal makro untuk pembangunan non-CUDA.
- Menyusun ulang deteksi backend di ggml-backend.cpp untuk menghindari konflik penautan.
- Memperbaiki bug paralelisme pipa hip backend dengan menambahkan sinkronisasi GPU tunggal dalam pengaturan multi-GPU.
- Mengecualikan hip/MUSA dari optimasi split CPU ke host menjadi split GPU sebagai tindakan pencegahan.
Rilis ini memungkinkan inferensi lebih cepat pada perangkat CUDA melalui operasi asinkron yang dioptimalkan sambil mempertahankan kompatibilitas di berbagai sistem operasi dan backend perangkat keras.