llama.cpp b9874 adiciona CUDA concat para tipos quantizados

O projeto llama.cpp lançou a versão b9874, que introduz uma nova implementação de CUDA para concatenar tipos quantizados. Esta atualização faz parte do desenvolvimento contínuo das capacidades de backend da biblioteca.

A principal alteração no código envolve adicionar suporte de CUDA para concatenar tipos de dados quantizados.
O lançamento inclui binários para macOS (Apple Silicon e Intel), Linux (CPU, Vulkan, ROCm, OpenVINO, SYCL), Android, Windows (CPU, OpenCL, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) e openEuler.
Um XCFramework iOS e uma compilação independente da UI também são fornecidos nesta versão.

Esta atualização permite que os usuários acessem os recursos mais recentes e suporte de plataforma disponíveis na compilação b9874.