O projeto llama.cpp lançou a versão b9837, que introduz um novo sinalizador `--reasoning-preserve` para o modelo de chat Jinja, a fim de reter tokens de raciocínio. Esta atualização também inclui mensagens de ajuda corrigidas e fornece binários pré-compilados para macOS, Linux, Windows, Android e openEuler em vários backends de hardware.
- Adicionado sinalizador `--reasoning-preserve` aos modelos jinja e chat para preservar o conteúdo do raciocínio.
- Corrigido o texto da mensagem de ajuda dentro da base de código.
- Desabilitado o suporte ao KleidiAI para builds Apple Silicon do macOS.
- Lançados binários para Ubuntu (CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL), Windows (CPU, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) e macOS (Apple Silicon e Intel).
Este lançamento permite que os usuários acessem os recursos mais recentes do llama.cpp em uma ampla gama de plataformas e aceleradores de hardware, fornecendo controle específico sobre o tratamento dos tokens de raciocínio nos modelos de chat.