Проект llama.cpp выпустил версию b9856, внося последовательное использование ключевого слова `restrict` и PDL для Flash Attention в CUDA. Это обновление сопровождается предварительно собранными бинарными файлами для macOS, Linux, Android, Windows и openEuler на различных аппаратных бэкендах.

  • Доступны сборки для Apple Silicon (arm64) под macOS, при этом поддержка KleidiAI остаётся отключённой.
  • Бинарные файлы для Linux охватывают CPU (x64, arm64, s390x), Vulkan, ROCm 7.2, OpenVINO и SYCL FP32/FP16.
  • Релизы для Windows включают CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL и HIP.
  • Для этого выпуска также предоставлены бинарные файлы arm64 (CPU) и UI для Android.