lançamento b9855 do llama.cpp adiciona otimização AVX2 nvfp4 e novos binários

O projeto llama.cpp lançou a versão b9855, que introduz uma otimização AVX2 para o produto interno nvfp4 usando uma Tabela de Busca (LUT) UE4M3 dentro do backend ggml-cpu.

Builds para macOS Apple Silicon e Intel estão disponíveis junto com um XCFramework para iOS.
Binários para Linux suportam as arquiteturas Ubuntu x64, arm64 e s390x via CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL (FP32/FP16).
Lançamentos para Windows incluem backends de CPU, OpenCL Adreno, CUDA 12.4 e 13.3, Vulkan, OpenVINO, SYCL e HIP.
Binários de CPU arm64 para Android são fornecidos para implantação móvel.
O suporte ao KleidiAI no macOS Apple Silicon está desativado neste lançamento.

Esta atualização oferece aos usuários capacidades de inferência otimizadas para configurações específicas de hardware e expande a gama de aceleradores suportados entre os principais sistemas operacionais.