github llama.cpp · 12 hari lalu · inference

llama.cpp Release b9731: Optimisasi Kinerja dan Binari Lintas Platform

Diterjemahkan dari English → Bahasa Indonesia

Versi llama.cpp b9731 memperkenalkan optimisasi menggunakan std::partial_sort untuk mengurangi overhead pengurutan token, meningkatkan kinerja dari 8.555ms menjadi 0.704ms untuk pemilihan top-n token. Rilis ini mencakup binari pra-bangun untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras.

Kepentingan 1/3 Kepercayaan 2/3 llama.cpp Inference efficiency

Baca aslinya