Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 11

Dica de Bloqueio de Stream Atualizada na v2.1.185

A dica de bloqueio de stream agora exibe "Aguardando resposta da API · tentará novamente em …" e é ativada após 20 segundos de silêncio, substituindo a mensagem e o atraso anteriores.

github llama.cpp · há 11 d

Lançamento do llama.cpp b9741 Adiciona Novos Binários e Suporte

A versão b9741 do llama.cpp introduz novos binários para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas. O lançamento inclui suporte para Vulkan, CUDA 12.4 e 13.3, OpenVINO, SYCL e ROCm, com versões atualizadas para iOS e Ubuntu.

github llama.cpp · há 11 d

Correção para falhas aleatórias no test-args-parser no Windows

Um patch corrige falhas aleatórias no test-args-parser no Windows ao modificar a substituição de argv para ser aplicada apenas quando argc corresponder, evitando a sobrescrita de argumentos programáticos. Isso resolve uma asserção de fastfail no fluxo de trabalho do OpenVINO no Windows, preservando o tratamento UTF-8 para binários reais.

github llama.cpp · há 11 d

LLaMA.cpp Release b9739 Adiciona Suporte a OpenCL Adreno ARM64 no Windows

A versão b9739 do LLaMA.cpp adiciona suporte para Windows ARM64 usando OpenCL Adreno. O lançamento inclui binários para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e APIs, incluindo Vulkan, CUDA, OpenVINO e SYCL.

github llama.cpp · há 11 d

llama.cpp lança b9738: corrige encaminhamento do cabeçalho de autenticação CORS e novos builds binários

A versão b9738 do llama.cpp corrige o proxy CORS para evitar o encaminhamento de cabeçalhos de autenticação. O lançamento inclui builds binários para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de aceleração de hardware, incluindo Vulkan, CUDA, OpenVINO e SYCL.

github llama.cpp · há 11 d

ggml otimiza AMX com achatamento de partição

O projeto ggml otimizou o desempenho do AMX achatando a partição sobre n_batch * M, garantindo que todos os threads participem da quantização. Essa mudança melhora a velocidade em até 1,47x em vários modelos e configurações de hardware nas plataformas de CPU e GPU, com resultados mostrando ganhos consistentes no tempo de inferência.

github llama.cpp · há 11 d

Correção do indexador DSA do GLM-5.2: tensores marcados como não obrigatórios

O indexador DSA do modelo GLM-5.2 estava sendo carregado incorretamente em todas as camadas, causando falhas devido à ausência de tensores. A atualização marca os tensores do indexador como TENSOR_NOT_REQUIRED, permitindo que camadas sem um indexador sejam carregadas como nullptr e habilitando a atenção MLA completa. O DeepSeek-V3.2, com indexação uniforme, não é afetado.

github llama.cpp · há 11 d

Interface web pré-compilada do Docker para s390x

Uma pull request foi submetida para adicionar uma interface web pré-compilada para a arquitetura s390x no Docker. A alteração está atualmente pendente de lançamento e ainda não foi publicada.

github llama.cpp · há 12 d

LLaMA.cpp lança b9732: Novos Binários e Atualizações

O LLaMA.cpp lançou a versão b9732 com binários atualizados para macOS, Linux, Android, Windows e openEuler. O lançamento inclui comunicação refatorada de filho para roteador, correções no tratamento de wakeup, atualização_status() melhorada e documentação. As novas compilações suportam Vulkan, ROCm, OpenVINO, SYCL e CUDA 12/13 em múltiplas arquiteturas.

github llama.cpp · há 12 d

ggml-webgpu adiciona alternâncias de adaptador F16 para Vulkan e NVIDIA

O projeto ggml-webgpu adicionou alternâncias de adaptador para suporte a precisão meia (F16) em GPUs Vulkan e NVIDIA. Esta atualização permite melhor desempenho em hardware compatível em várias plataformas, incluindo macOS, Linux, Android, Windows e openEuler, com builds específicas disponíveis para as arquiteturas ARM e x64.

github llama.cpp · há 12 d

Lançamento do llama.cpp b9731: Otimização de Desempenho e Binários Multiplataforma

A versão b9731 do llama.cpp introduz otimização usando std::partial_sort para reduzir a sobrecarga de ordenação de tokens, melhorando o desempenho de 8.555ms para 0.704ms na seleção de top-n de tokens. O lançamento inclui binários pré-compilados para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de aceleração por hardware.

github llama.cpp · há 12 d

llama.cpp release b9730: correções e novos binários

A versão b9730 do llama.cpp inclui correções para o manuseio de UTF-8 no Windows e melhorias no ggml_fopen e CLI. O lançamento fornece binários para macOS, Linux, Android, Windows e openEuler em várias arquiteturas e opções de aceleração de hardware, incluindo Vulkan, CUDA, OpenVINO e SYCL.

github llama.cpp · há 12 d

LLaMA.cpp lança b9729: Novos Binários e Suporte a Plataformas

O LLaMA.cpp lançou a versão b9729 com binários para macOS, Linux, Android, Windows e openEuler em várias arquiteturas. O lançamento inclui suporte para CPU, Vulkan, OpenVINO, SYCL e ROCm, além de um novo pacote de UI. Referências internas ao 'webui' foram removidas.

github llama.cpp · há 12 d

LLaMA.cpp Release b9728 adiciona suporte a linhas de comentário e binários multiplataforma

A versão b9728 do LLaMA.cpp introduz suporte para linhas de comentário na configuração --api-key-file. O lançamento inclui binários pré-compilados para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de aceleração de hardware, incluindo Vulkan, CUDA, OpenVINO e SYCL.

github llama.cpp · há 12 d

llama.cpp release b9726 adiciona argumento --agent e novos binários de plataforma

A versão b9726 do llama.cpp introduz um novo argumento --agent e remove a compatibilidade redundante de nomenclatura do webui. O lançamento inclui binários pré-compilados para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de aceleração de hardware.

github llama.cpp · há 12 d

Lançamento do llama.cpp b9727: Atualização para cpp-httplib 0.48.0

A versão b9727 do llama.cpp atualiza o cpp-httplib para a versão 0.48.0. O lançamento inclui binários para macOS, Linux, Android, Windows e openEuler em várias arquiteturas e opções de aceleração de hardware, incluindo Vulkan, CUDA, OpenVINO e SYCL.

github llama.cpp · há 12 d

Docker: Construir a interface do usuário (#24794)

O projeto Docker adicionou suporte para construir o componente da interface do usuário. Esta atualização também inclui o uso do APP_VERSION existente na configuração do contêiner.

github llama.cpp · há 12 d

llama.cpp Lança b9724 com Correções de Bugs e Binários Multiplataforma

A versão b9724 do llama.cpp inclui várias correções de bugs e melhorias, como correções de compilação, prevenção de estouro na função area() e uma verificação de sanidade em get_u32(). O lançamento fornece binários pré-compilados para macOS (arm64 e x64), Linux (x64, arm64, s390x, Vulkan, ROCm, OpenVINO, SYCL), Android (arm64), Windows (x64, arm64, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) e openEuler (x86 e aarch64 com suporte a ACL Graph), além de um pacote de UI.

github llama.cpp · há 12 d

Lançamento do llama.cpp b9723 adiciona suporte para Qwen3.5, Qwen3.6 e Eagle3

A versão b9723 do llama.cpp introduz suporte para os modelos Qwen3.5 e Qwen3.6 por meio do Eagle3. O lançamento inclui restauração adiada de checkpoints de fronteira para modelos híbridos e atualizações nas convenções de API e nomenclatura. Builds binários estão disponíveis para as plataformas macOS, Linux, Android, Windows e openEuler, com opções para CPU, Vulkan, OpenVINO, SYCL e ROCm.

github llama.cpp · há 12 d

LLaMA.cpp Lança b9722: Correções e Binários Multiplataforma

A versão b9722 do LLaMA.cpp corrige um problema de valor n_discard não vinculado no tratamento do contexto do servidor. O lançamento inclui binários pré-compilados para macOS, Linux, Android, Windows e openEuler, suportando várias arquiteturas e frameworks de aceleração como Vulkan, CUDA, OpenVINO e SYCL.