llama.cpp 프로젝트는 flash_attn_mask_to_KV_max 커널에서 정수 절단 및 오버플로 오류를 방지하기 위한 CUDA 수정 사항을 포함하는 버전 b9851을 출시했습니다. 이 업데이트는 지정된 커널 내의 KQ 마스크 스트라이드와 관련된 문제를 해결합니다.
- macOS Apple Silicon (arm64) 바이너리가 제공되며, KleidiAI 지원은 비활성화됩니다.
- Linux 빌드는 CPU, Vulkan, ROCm 7.2, OpenVINO 및 SYCL FP32/FP16를 위한 Ubuntu x64 및 arm64를 포함합니다.
- Android arm64 (CPU) 바이너리가 모바일 기기를 위해 제공됩니다.
- Windows 릴리스에는 CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL 및 HIP 변형이 포함되어 있습니다.
- x86 및 aarch64 아키텍처를 위한 openEuler 빌드가 나열되어 있으며, 일부 구성은 비활성화됩니다.
- 독립형 UI 바이너리도 릴리스 자산에 포함되어 있습니다.
이 릴리스는 계산 오류를 수정하여 CUDA 사용자에게 안정성을 보장하고 주요 운영 체제 및 하드웨어 가속기 전반에 걸쳐 포괄적인 사전 빌드 바이너리를 제공합니다.