llama.cpp b9820 릴리스: CUDA 동기화 감소 및 새로운 바이너리

llama.cpp b9820 릴리스는 분할 계산 중 동기화를 줄임으로써 성능을 개선했으며, 특히 CUDA 백엔드를 대상으로 합니다. 이 업데이트는 CPU, GPU, 특수 하드웨어 가속기를 위한 macOS, Linux, Windows, Android, openEuler용 사전 빌드 바이너리를 제공합니다.

토큰 간 동기화를 줄여 CUDA 성능을 향상시킵니다.
ggml_backend_cuda_cpy_tensor_async()에 CPU에서 CUDA로의 복사 기능을 추가합니다.
CUDA와 같은 지원되는 백엔드에서 입력 복사 간 동기화 요구사항을 완화합니다.
동기식 복사를 비동기식 복사 함수로 교체하고 비CUDA 빌드에 대한 매크로 가드를 추가합니다.
링크 충돌을 피하기 위해 ggml-backend.cpp의 백엔드 감지 로직을 재구성합니다.
다중 GPU 환경에서 단일-GPU 동기화를 추가하여 HIP 백엔드의 파이프라인 병렬화 버그를 수정합니다.
예방 조치로 호스트에서 GPU로의 분할 복사 최적화에서 HIP/MUSA를 제외합니다.

이 릴리스는 광범위한 운영 체제 및 하드웨어 백엔드와의 호환성을 유지하면서 최적화된 비동기 작업을 통해 CUDA 장치에서 더 빠른 추론을 가능하게 합니다.