llama.cpp b9827 릴리스에 CUDA 2D 비동기 복사 최적화가 추가됨

llama.cpp b9827 릴리스는 ggml_cuda_cpy 함수에 cudaMemcpy2DAsync 빠른 경로를 추가하여 CUDA의 성능을 최적화합니다. 이 변경은 텐서가 완전히 연속적이지 않지만 각 행이 연속적인 경우, 느린 요소별 스칼라 복사 커널을 대체하여 동일한 타입과 동일한 모양의 스트라이드 복사를 가속화합니다.

비연속 텐서에서 성능을 개선하기 위해 CUDA의 2D 피치된 블록 복사에 빠른 경로를 구현합니다.
rollback 슬롯 분리 문제를 해결하여 -np 4 사용 시 GDN 순환 스냅샷 업데이트를 수정합니다.
최적화된 스트라이드 복사 경로를 검증하기 위한 새 테스트를 추가합니다.
새로운 테스트 실패로 인해 OpenVINO의 스트라이드 복사에 지원되지 않음을 반환합니다.
이번 릴리스에 대해 macOS Apple Silicon (arm64, KleidiAI 활성화) 빌드를 비활성화합니다.

이 업데이트는 특정 텐서 복사 작업 중 오버헤드를 줄여 CUDA 장치에서의 추론 효율성을 향상시키고 GDN 순환 처리의 안정성 문제를 해결합니다.