La version b9731 de llama.cpp introduit une optimisation utilisant std::partial_sort pour réduire la surcharge du tri des tokens, améliorant les performances de 8.555ms à 0.704ms pour la sélection des top-n tokens. La release inclut des binaires précompilés pour macOS, Linux, Android, Windows et openEuler sur plusieurs architectures et options d'accélération matérielle.
llama.cpp Release b9731 : Optimisation des performances et binaires multiplateformes
Traduit de English → Français