llama.cpp b9827 릴리스는 ggml_cuda_cpy 함수에 cudaMemcpy2DAsync 빠른 경로를 추가하여 CUDA의 성능을 최적화합니다. 이 변경은 텐서가 완전히 연속적이지 않지만 각 행이 연속적인 경우, 느린 요소별 스칼라 복사 커널을 대체하여 동일한 타입과 동일한 모양의 스트라이드 복사를 가속화합니다.

  • 비연속 텐서에서 성능을 개선하기 위해 CUDA의 2D 피치된 블록 복사에 빠른 경로를 구현합니다.
  • rollback 슬롯 분리 문제를 해결하여 -np 4 사용 시 GDN 순환 스냅샷 업데이트를 수정합니다.
  • 최적화된 스트라이드 복사 경로를 검증하기 위한 새 테스트를 추가합니다.
  • 새로운 테스트 실패로 인해 OpenVINO의 스트라이드 복사에 지원되지 않음을 반환합니다.
  • 이번 릴리스에 대해 macOS Apple Silicon (arm64, KleidiAI 활성화) 빌드를 비활성화합니다.

이 업데이트는 특정 텐서 복사 작업 중 오버헤드를 줄여 CUDA 장치에서의 추론 효율성을 향상시키고 GDN 순환 처리의 안정성 문제를 해결합니다.