llama.cpp b9828 릴리스: OpenCL Flash Attention 개선 및 새로운 바이너리

llama.cpp b9828 릴리스는 f16 및 f32 정밀도를 위한 Flash Attention 커널을 재구성하는 등 상당한 OpenCL 향상 기능을 도입합니다. 이 업데이트에는 새로운 prefill prepass 커널과 q4_0 및 q8_0 양자화 형식에 대한 지원이 포함됩니다.

최적화된 타일 패딩 및 마스킹 로직으로 f16 및 f32용 FA 커널 재구성.
dequant 커널 및 SOA 텐서 지원을 포함한 q4_0 및 q8_0 양자화에 대한 FA 커널 추가.
재정의 기능을 갖춘 FA 타일 튜닝 테이블 도입 및 -cl-finite-math-only에 대한 무한대 처리 수정.
macOS(Apple Silicon/Intel), Linux(CPU/Vulkan/ROCm/OpenVINO/SYCL), Windows(CPU/CUDA/Vulkan/HIP/OpenVINO/SYCL), Android, openEuler용 사전 빌드 바이너리 제공.

이 릴리스는 메모리 접근 패턴을 최적화하고 추가 양자화 유형을 지원하여 OpenCL 호환 하드웨어에서 더 효율적인 추론을 가능하게 합니다.