Versi llama.cpp b9731 memperkenalkan optimisasi menggunakan std::partial_sort untuk mengurangi overhead pengurutan token, meningkatkan kinerja dari 8.555ms menjadi 0.704ms untuk pemilihan top-n token. Rilis ini mencakup binari pra-bangun untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras.
llama.cpp Release b9731: Optimisasi Kinerja dan Binari Lintas Platform
Diterjemahkan dari English → Bahasa Indonesia