llama.cpp 프로젝트가 CUDA에서 Flash Attention에 대한 `restrict` 키워드와 PDL의 일관된 사용을 도입한 버전 b9856을 출시했습니다. 이 업데이트는 다양한 하드웨어 백엔드에 대해 macOS, Linux, Android, Windows 및 openEuler용 사전 빌드 바이너리를 동반합니다.
- macOS Apple Silicon (arm64) 빌드가 제공되며, KleidiAI 지원은 비활성화된 상태로 유지됩니다.
- Linux 바이너리는 CPU(x64, arm64, s390x), Vulkan, ROCm 7.2, OpenVINO 및 SYCL FP32/FP16를 커버합니다.
- Windows 릴리스에는 CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL 및 HIP가 포함됩니다.
- 이번 릴리스에서는 Android arm64(CPU) 및 UI 바이너리도 제공됩니다.