llama.cpp b9862 릴리스: CUDA 최적화 및 멀티 플랫폼 바이너리

llama.cpp 프로젝트는 gated_delta_net 연산에 대한 성능 최적화와 macOS, Linux, Windows, Android, openEuler용 사전 빌드된 바이너리를 제공하는 버전 b9862를 출시했습니다.

gated_delta_net -> view -> cpy 패턴을 감지하여 gated_delta_net 이후의 중복 CUDA 복사본을 제거합니다.
CUDA GDN 커널이 중간 꼬리 쓰기를 건너뛰고 순환 캐시에 상태 스냅샷을 직접 작성할 수 있도록 합니다.
이번 릴리스에서는 macOS Apple Silicon에 대한 KleidiAI 지원을 비활성화했습니다.
CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL 백엔드가 포함된 Ubuntu x64/arm64/s390x용 바이너리를 제공합니다.
CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP용 Windows 빌드를 포함합니다.

이 업데이트는 지원되는 GPU 아키텍처에서 추론 효율성을 향상시키면서 다양한 운영 체제 및 하드웨어 가속기 전반에 걸쳐 광범위한 호환성을 유지합니다.