la versión b9827 de llama.cpp añade una optimización de copia asíncrona 2D en CUDA

La versión b9827 de llama.cpp introduce una optimización de rendimiento para CUDA añadiendo un camino rápido cudaMemcpy2DAsync a la función ggml_cuda_cpy. Este cambio acelera las copias escalonadas de mismo tipo y misma forma donde los tensores no son completamente contiguos pero cada fila es contigua, reemplazando kernels de copia escalar elemento por elemento más lentos.

Implementa un camino rápido para copias de bloques con paso 2D en CUDA para mejorar el rendimiento en tensores no contiguos.
Corrige las actualizaciones de instantánea recurrente GDN al usar -np 4 abordando problemas de separación de ranuras de retroceso.
Añade nuevas pruebas para validar el camino optimizado de copia escalonada.
Devuelve estado no soportado para copias escalonadas en OpenVINO debido a la falla de las nuevas pruebas.
Desactiva las compilaciones de macOS Apple Silicon (arm64, KleidiAI habilitado) para esta versión.

Esta actualización mejora la eficiencia de inferencia en dispositivos CUDA reduciendo la sobrecarga durante operaciones específicas de copia de tensores y resuelve problemas de estabilidad en el procesamiento recurrente GDN.