Tous les articles
github llama.cpp · il y a 4 j

La version b9827 de llama.cpp ajoute une optimisation de copie asynchrone 2D CUDA

La version b9827 de llama.cpp introduit une optimisation de performance pour CUDA en ajoutant un chemin rapide cudaMemcpy2DAsync à la fonction ggml_cuda_cpy. Ce changement accélère les copies échelonnées de même type et même forme où les tenseurs ne sont pas entièrement contigus mais chaque ligne l'est, remplaçant des noyaux de copie scalaire élément par élément plus lents.