O projeto llama.cpp lançou a versão b9835, que inclui uma correção para a funcionalidade de parada e pulso de raciocínio no modo de modelo único. Esta atualização aborda problemas específicos dentro da interface do usuário para melhorar o controle durante a inferência do modelo.

  • macOS: Binários fornecidos para Apple Silicon (arm64) e Intel (x64), com KleidiAI desativado no Apple Silicon; XCFramework para iOS incluído.
  • Linux: Builds disponíveis para Ubuntu x64 e arm64 (CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL FP32/FP16).
  • Android: Binário de CPU fornecido para arquitetura arm64.
  • Windows: Binários para CPUs x64 e arm64, além de suporte a GPU via CUDA 12/13, Vulkan, OpenCL Adreno, OpenVINO, SYCL e HIP.
  • openEuler: Builds para x86 (310p, 910b ACL Graph) e aarch64 (310p, 910b ACL Graph), com suporte padrão desativado.

O lançamento garante maior compatibilidade de hardware entre vários sistemas operacionais e aceleradores, enquanto corrige o comportamento da interface em cenários de modelo único.