github llama.cpp · 17시간 전 · inference

llama.cpp b9847 릴리스, Gemma E4B MTP FlashAttention 수정

번역 English → 한국어

llama.cpp 프로젝트가 버전 b9847을 출시했으며, 여기에는 CUDA에서의 Gemma E4B MTP FlashAttention 수정과 사용하지 않는 템플릿 선언 제거가 포함됩니다.

CUDA 백엔드에서 Gemma E4B MTP FlashAttention 수정 (#25148)
사용하지 않는 템플릿 선언 제거
macOS Apple Silicon (arm64) 바이너리 제공
macOS Intel (x64) 바이너리 제공
iOS XCFramework 제공
Ubuntu x64 및 arm64 CPU 빌드 포함
Ubuntu Vulkan, ROCm 7.2, OpenVINO, SYCL FP32, SYCL FP16 빌드 제공
Android arm64 CPU 빌드 출시
Windows x64 및 arm64 CPU 빌드 제공
DLL이 포함된 Windows CUDA 12.4 및 13.3 빌드 제공
Windows Vulkan, OpenVINO, SYCL, HIP 빌드 제공
openEuler x86 및 aarch64 빌드 (310p 및 910b (ACL Graph) 프로세서용)
일반 UI 바이너리 출시

중요도 1/3 신뢰도 2/3 llama.cpp