Tous les articles
github llama.cpp · il y a 3 j

La version b9830 de llama.cpp ajoute le drapeau --offline et corrige un bug mémoire

La version b9830 de llama.cpp introduit la possibilité d'utiliser le drapeau --offline avec la commande llama download, permettant aux scripts de vérifier les modèles en cache sans accès réseau. Cette mise à jour résout également une vulnérabilité use-after-free latente dans le callback on_done de la tâche URL où first_path était incorrectement capturé par référence.

github llama.cpp · il y a 4 j

La version b9827 de llama.cpp ajoute une optimisation de copie asynchrone 2D CUDA

La version b9827 de llama.cpp introduit une optimisation de performance pour CUDA en ajoutant un chemin rapide cudaMemcpy2DAsync à la fonction ggml_cuda_cpy. Ce changement accélère les copies échelonnées de même type et même forme où les tenseurs ne sont pas entièrement contigus mais chaque ligne l'est, remplaçant des noyaux de copie scalaire élément par élément plus lents.