O lançamento b9827 do llama.cpp introduz uma otimização de desempenho para o CUDA, adicionando um caminho rápido cudaMemcpy2DAsync à função ggml_cuda_cpy. Esta alteração acelera cópias em stride com mesmo tipo e mesma forma, onde os tensores não são totalmente contíguos, mas cada linha é contígua, substituindo kernels de cópia escalar elemento a elemento mais lentos.

  • Implementa um caminho rápido para cópias de blocos 2D em CUDA para melhorar o desempenho em tensores não contíguos.
  • Corrige atualizações de snapshot recorrente do GDN ao usar -np 4, abordando problemas de separação de slots de rollback.
  • Adiciona novos testes para validar o caminho de cópia em stride otimizado.
  • Retorna status não suportado para cópias em stride no OpenVINO devido à falha nos novos testes.
  • Desativa builds do macOS Apple Silicon (arm64, KleidiAI habilitado) para este lançamento.

Esta atualização melhora a eficiência da inferência em dispositivos CUDA, reduzindo a sobrecarga durante operações específicas de cópia de tensores e resolvendo problemas de estabilidade no processamento recorrente do GDN.