Le projet llama.cpp a publié le build b9871, qui inclut une correction pour l'implémentation de la concaténation CPU défectueuse lors du traitement des types de données quantifiés.

  • Le changement principal corrige un bug dans la logique de concaténation CPU de ggml pour les types quantifiés, accompagné de nouveaux tests pour vérifier l'exactitude.
  • Des binaires précompilés sont disponibles pour macOS (Apple Silicon et Intel), Linux (Ubuntu x64/arm64/s390x with CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL), Windows (CPU, CUDA 12/13, Vulkan, OpenCL, OpenVINO, SYCL, HIP), Android arm64 et openEuler.
  • Un binaire UI mis à jour est également inclus dans cette version.