lançamento b9827 do llama.cpp adiciona otimização de cópia assíncrona 2D do CUDA

O lançamento b9827 do llama.cpp introduz uma otimização de desempenho para o CUDA, adicionando um caminho rápido cudaMemcpy2DAsync à função ggml_cuda_cpy. Esta alteração acelera cópias em stride com mesmo tipo e mesma forma, onde os tensores não são totalmente contíguos, mas cada linha é contígua, substituindo kernels de cópia escalar elemento a elemento mais lentos.

Implementa um caminho rápido para cópias de blocos 2D em CUDA para melhorar o desempenho em tensores não contíguos.
Corrige atualizações de snapshot recorrente do GDN ao usar -np 4, abordando problemas de separação de slots de rollback.
Adiciona novos testes para validar o caminho de cópia em stride otimizado.
Retorna status não suportado para cópias em stride no OpenVINO devido à falha nos novos testes.
Desativa builds do macOS Apple Silicon (arm64, KleidiAI habilitado) para este lançamento.

Esta atualização melhora a eficiência da inferência em dispositivos CUDA, reduzindo a sobrecarga durante operações específicas de cópia de tensores e resolvendo problemas de estabilidade no processamento recorrente do GDN.