github llama.cpp · 2시간 전 · inference

llama.cpp b9852 릴리스, OpenCL q1_0 지원 추가

번역 English → 한국어

llama.cpp 프로젝트가 버전 b9852를 출시하여 q1_0 양자화 형식에 대한 초기 OpenCL 지원을 도입했습니다. 이번 업데이트에는 일반적인 q1_0 기능과 OpenCL 장치용 Adreno GEMM/GEMV 구현이 포함됩니다.

q1_0 양자화에 대한 초기 OpenCL 지원
q1_0용 Adreno GEMM/GEMV 커널 추가
macOS Apple Silicon (arm64) 바이너리 제공
이번 릴리스에서는 macOS Apple Silicon의 KleidiAI가 비활성화됨
CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL를 위한 Ubuntu 빌드 사용 가능
Windows 빌드에는 CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP, OpenCL Adreno 포함
Android arm64 (CPU) 바이너리 출시
ACL Graph 활성화된 x86 및 aarch64 아키텍처용 openEuler 지원

이번 릴리스는 OpenCL 장치에서 효율적인 q1_0 추론을 가능하게 하여 하드웨어 호환성을 확장하고, 여러 운영 체제와 가속기 전반에 걸쳐 업데이트된 바이너리를 제공합니다.

중요도 1/3 신뢰도 2/3 llama.cpp Hugging Face Inference efficiency