github llama.cpp · il y a 12 j · inference

llama.cpp Release b9731 : Optimisation des performances et binaires multiplateformes

Traduit de English → Français

La version b9731 de llama.cpp introduit une optimisation utilisant std::partial_sort pour réduire la surcharge du tri des tokens, améliorant les performances de 8.555ms à 0.704ms pour la sélection des top-n tokens. La release inclut des binaires précompilés pour macOS, Linux, Android, Windows et openEuler sur plusieurs architectures et options d'accélération matérielle.

Importance 1/3 Confiance 2/3 llama.cpp Inference efficiency

Lire l'original