Todos os artigos
github llama.cpp · há 4 d

lançamento b9827 do llama.cpp adiciona otimização de cópia assíncrona 2D do CUDA

O lançamento b9827 do llama.cpp introduz uma otimização de desempenho para o CUDA, adicionando um caminho rápido cudaMemcpy2DAsync à função ggml_cuda_cpy. Esta alteração acelera cópias em stride com mesmo tipo e mesma forma, onde os tensores não são totalmente contíguos, mas cada linha é contígua, substituindo kernels de cópia escalar elemento a elemento mais lentos.