Dica de Bloqueio de Stream Atualizada na v2.1.185
A dica de bloqueio de stream agora exibe "Aguardando resposta da API · tentará novamente em …" e é ativada após 20 segundos de silêncio, substituindo a mensagem e o atraso anteriores.
A dica de bloqueio de stream agora exibe "Aguardando resposta da API · tentará novamente em …" e é ativada após 20 segundos de silêncio, substituindo a mensagem e o atraso anteriores.
A versão b9741 do llama.cpp introduz novos binários para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas. O lançamento inclui suporte para Vulkan, CUDA 12.4 e 13.3, OpenVINO, SYCL e ROCm, com versões atualizadas para iOS e Ubuntu.
Um patch corrige falhas aleatórias no test-args-parser no Windows ao modificar a substituição de argv para ser aplicada apenas quando argc corresponder, evitando a sobrescrita de argumentos programáticos. Isso resolve uma asserção de fastfail no fluxo de trabalho do OpenVINO no Windows, preservando o tratamento UTF-8 para binários reais.
A versão b9739 do LLaMA.cpp adiciona suporte para Windows ARM64 usando OpenCL Adreno. O lançamento inclui binários para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e APIs, incluindo Vulkan, CUDA, OpenVINO e SYCL.
A versão b9738 do llama.cpp corrige o proxy CORS para evitar o encaminhamento de cabeçalhos de autenticação. O lançamento inclui builds binários para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de aceleração de hardware, incluindo Vulkan, CUDA, OpenVINO e SYCL.
O projeto ggml otimizou o desempenho do AMX achatando a partição sobre n_batch * M, garantindo que todos os threads participem da quantização. Essa mudança melhora a velocidade em até 1,47x em vários modelos e configurações de hardware nas plataformas de CPU e GPU, com resultados mostrando ganhos consistentes no tempo de inferência.
O indexador DSA do modelo GLM-5.2 estava sendo carregado incorretamente em todas as camadas, causando falhas devido à ausência de tensores. A atualização marca os tensores do indexador como TENSOR_NOT_REQUIRED, permitindo que camadas sem um indexador sejam carregadas como nullptr e habilitando a atenção MLA completa. O DeepSeek-V3.2, com indexação uniforme, não é afetado.
Uma pull request foi submetida para adicionar uma interface web pré-compilada para a arquitetura s390x no Docker. A alteração está atualmente pendente de lançamento e ainda não foi publicada.
O LLaMA.cpp lançou a versão b9732 com binários atualizados para macOS, Linux, Android, Windows e openEuler. O lançamento inclui comunicação refatorada de filho para roteador, correções no tratamento de wakeup, atualização_status() melhorada e documentação. As novas compilações suportam Vulkan, ROCm, OpenVINO, SYCL e CUDA 12/13 em múltiplas arquiteturas.
O projeto ggml-webgpu adicionou alternâncias de adaptador para suporte a precisão meia (F16) em GPUs Vulkan e NVIDIA. Esta atualização permite melhor desempenho em hardware compatível em várias plataformas, incluindo macOS, Linux, Android, Windows e openEuler, com builds específicas disponíveis para as arquiteturas ARM e x64.
A versão b9731 do llama.cpp introduz otimização usando std::partial_sort para reduzir a sobrecarga de ordenação de tokens, melhorando o desempenho de 8.555ms para 0.704ms na seleção de top-n de tokens. O lançamento inclui binários pré-compilados para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de aceleração por hardware.
A versão b9730 do llama.cpp inclui correções para o manuseio de UTF-8 no Windows e melhorias no ggml_fopen e CLI. O lançamento fornece binários para macOS, Linux, Android, Windows e openEuler em várias arquiteturas e opções de aceleração de hardware, incluindo Vulkan, CUDA, OpenVINO e SYCL.
O LLaMA.cpp lançou a versão b9729 com binários para macOS, Linux, Android, Windows e openEuler em várias arquiteturas. O lançamento inclui suporte para CPU, Vulkan, OpenVINO, SYCL e ROCm, além de um novo pacote de UI. Referências internas ao 'webui' foram removidas.
A versão b9728 do LLaMA.cpp introduz suporte para linhas de comentário na configuração --api-key-file. O lançamento inclui binários pré-compilados para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de aceleração de hardware, incluindo Vulkan, CUDA, OpenVINO e SYCL.
A versão b9726 do llama.cpp introduz um novo argumento --agent e remove a compatibilidade redundante de nomenclatura do webui. O lançamento inclui binários pré-compilados para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de aceleração de hardware.
A versão b9727 do llama.cpp atualiza o cpp-httplib para a versão 0.48.0. O lançamento inclui binários para macOS, Linux, Android, Windows e openEuler em várias arquiteturas e opções de aceleração de hardware, incluindo Vulkan, CUDA, OpenVINO e SYCL.
O projeto Docker adicionou suporte para construir o componente da interface do usuário. Esta atualização também inclui o uso do APP_VERSION existente na configuração do contêiner.
A versão b9724 do llama.cpp inclui várias correções de bugs e melhorias, como correções de compilação, prevenção de estouro na função area() e uma verificação de sanidade em get_u32(). O lançamento fornece binários pré-compilados para macOS (arm64 e x64), Linux (x64, arm64, s390x, Vulkan, ROCm, OpenVINO, SYCL), Android (arm64), Windows (x64, arm64, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) e openEuler (x86 e aarch64 com suporte a ACL Graph), além de um pacote de UI.
A versão b9723 do llama.cpp introduz suporte para os modelos Qwen3.5 e Qwen3.6 por meio do Eagle3. O lançamento inclui restauração adiada de checkpoints de fronteira para modelos híbridos e atualizações nas convenções de API e nomenclatura. Builds binários estão disponíveis para as plataformas macOS, Linux, Android, Windows e openEuler, com opções para CPU, Vulkan, OpenVINO, SYCL e ROCm.
A versão b9722 do LLaMA.cpp corrige um problema de valor n_discard não vinculado no tratamento do contexto do servidor. O lançamento inclui binários pré-compilados para macOS, Linux, Android, Windows e openEuler, suportando várias arquiteturas e frameworks de aceleração como Vulkan, CUDA, OpenVINO e SYCL.