O projeto llama.cpp lançou a versão b9874, que introduz uma nova implementação de CUDA para concatenar tipos quantizados. Esta atualização faz parte do desenvolvimento contínuo das capacidades de backend da biblioteca.

  • A principal alteração no código envolve adicionar suporte de CUDA para concatenar tipos de dados quantizados.
  • O lançamento inclui binários para macOS (Apple Silicon e Intel), Linux (CPU, Vulkan, ROCm, OpenVINO, SYCL), Android, Windows (CPU, OpenCL, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) e openEuler.
  • Um XCFramework iOS e uma compilação independente da UI também são fornecidos nesta versão.

Esta atualização permite que os usuários acessem os recursos mais recentes e suporte de plataforma disponíveis na compilação b9874.