O projeto llama.cpp lançou a versão b9852, introduzindo suporte inicial ao OpenCL para o formato de quantização q1_0. Esta atualização inclui capacidades gerais de q1_0 e implementações específicas de GEMM/GEMV para Adreno em dispositivos OpenCL.
- Suporte inicial ao OpenCL para quantização q1_0
- Adicionados kernels GEMM/GEMV para Adreno no q1_0
- Binários fornecidos para macOS Apple Silicon (arm64)
- KleidiAI no macOS Apple Silicon está desativado nesta versão
- Builds do Ubuntu disponíveis para CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL
- Builds do Windows incluem CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP e Adreno via OpenCL
- Binários Android arm64 (CPU) lançados
- Suporte ao openEuler para arquiteturas x86 e aarch64 com ACL Graph habilitado
Este lançamento expande a compatibilidade de hardware, permitindo inferência eficiente de q1_0 em dispositivos OpenCL e fornecendo binários atualizados em múltiplos sistemas operacionais e aceleradores.