Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 11

Lançamento b9835 do llama.cpp com correções de parada na interface e pulso de raciocínio

O projeto llama.cpp lançou a versão b9835, que inclui uma correção para a funcionalidade de parada e pulso de raciocínio no modo de modelo único. Esta atualização aborda problemas específicos dentro da interface do usuário para melhorar o controle durante a inferência do modelo.

github llama.cpp · há 3 d

Lançamento b9833 do llama.cpp: Parser para MiniCPM5 e binários multi-plataforma

O projeto llama.cpp lançou a versão b9833, introduzindo um parser dedicado para o modelo MiniCPM5 junto com várias correções de bugs e refatorações. Esta atualização inclui suporte para parsing de chamadas de ferramenta, simplificação de gramática e correção do comportamento da API Jinja para garantir compatibilidade com os padrões Jinja2.

github llama.cpp · há 3 d

Lançamento b9832 do llama.cpp adiciona flag de depuração --dump-prog

O projeto llama.cpp lançou a versão b9832, introduzindo uma nova opção de linha de comando `--dump-prog` para o mecanismo de template Jinja, visando auxiliar na depuração. Esta atualização também inclui binários pré-compilados para macOS, Linux, Android, Windows e openEuler em várias arquiteturas de CPU e GPU.

github llama.cpp · há 3 d

Lançamento b9831 do llama.cpp adiciona suporte ao DFlash e novos binários

O lançamento b9831 do llama.cpp introduz o suporte ao DFlash v2, incluindo atenção de janela deslizante por tipos de camada, juntamente com um conjunto abrangente de binários pré-compilados para várias plataformas.

github llama.cpp · há 3 d

lançamento b9830 do llama.cpp adiciona sinalizador --offline e corrige bug de memória

O lançamento b9830 do llama.cpp introduz a capacidade de usar o sinalizador --offline com o comando llama download, permitindo que scripts verifiquem modelos em cache sem acesso à rede. Esta atualização também resolve uma vulnerabilidade latente de uso após liberação no callback on_done da tarefa URL, onde first_path estava sendo capturado incorretamente por referência.

github llama.cpp · há 4 d

Lançamento b9829 do llama.cpp: Redução de Logs e Binários Multiplataforma

O projeto llama.cpp lançou a versão b9829, que inclui uma redução da saída de logs no servidor, componentes comuns e módulos de decodificação especulativa. Esta atualização também padroniza as convenções de nomenclatura, substituindo CMN_ por COM_.

github llama.cpp · há 4 d

Lançamento b9828 do llama.cpp: Melhorias no Flash Attention via OpenCL e novos binários

O lançamento b9828 do llama.cpp introduz melhorias significativas no OpenCL, reestruturando especificamente os kernels do Flash Attention para precisão f16 e f32. Esta atualização inclui novos kernels de pré-prefill e suporte para formatos de quantização q4_0 e q8_0.

github llama.cpp · há 4 d

lançamento b9827 do llama.cpp adiciona otimização de cópia assíncrona 2D do CUDA

O lançamento b9827 do llama.cpp introduz uma otimização de desempenho para o CUDA, adicionando um caminho rápido cudaMemcpy2DAsync à função ggml_cuda_cpy. Esta alteração acelera cópias em stride com mesmo tipo e mesma forma, onde os tensores não são totalmente contíguos, mas cada linha é contígua, substituindo kernels de cópia escalar elemento a elemento mais lentos.

github llama.cpp · há 4 d

Lançamento b9825 do llama.cpp: Correção de Vulkan e Binários Multiplataforma

O projeto llama.cpp lançou a versão b9825, que inclui uma correção para o operador de etapa do Vulkan ao lidar com entradas zero. Esta atualização fornece binários pré-compilados para macOS, Linux, Windows, Android e openEuler em vários backends de hardware.

github llama.cpp · há 4 d

Lançamento b9826 do llama.cpp com correção de norma SYCL

O projeto llama.cpp publicou o lançamento b9826, que inclui uma correção para casos de teste unitários falhos relacionados à função norm no SYCL. Esta atualização fornece binários pré-compilados e frameworks em múltiplas plataformas e aceleradores de hardware.

github llama.cpp · há 5 d

lançamento b9822 do llama.cpp com binários para macOS, Linux e Windows

O projeto llama.cpp publicou o lançamento b9822, fornecendo binários pré-compilados para macOS, iOS, Linux, Android e Windows. Esta atualização inclui uma correção para a opção --no-common do test-chat-template e distribui builds para várias arquiteturas de hardware e aceleradores.

github llama.cpp · há 5 d

lançamento b9823 do llama.cpp adiciona OpenVINO para Windows e atualiza binários

O projeto llama.cpp publicou a versão b9823, fornecendo binários pré-compilados para as plataformas macOS, iOS, Linux, Android, Windows e openEuler. Uma mudança importante neste lançamento é a adição de uma compilação do OpenVINO para Windows ao pipeline check-release.

github llama.cpp · há 5 d

Lançamento b9824 do llama.cpp: renomeação de binários e novas compilações

O projeto llama.cpp lançou a versão b9824, que inclui melhorias nos binários rpc-server e export-graph-ops. A ferramenta `export-graph-ops` foi renomeada para seguir as convenções de nomenclatura de testes, enquanto `rpc-server` foi renomeado para `ggml-rpc-server` para evitar conflitos em diretórios do sistema.

github vLLM · há 5 d

v0.24.0

A versão v0.24.0 inclui uma atualização de integração contínua para aumentar o tempo limite de inicialização do GSM8K para as configurações MoE Refactor Qwen3 NVFP4.

lab OpenAI News · há 5 d

OpenAI antecipa modelos GPT-5.6 Sol, Terra e Luna

A OpenAI iniciou uma prévia limitada da série GPT-5.6, apresentando três novos modelos: Sol como o principal, Terra para trabalho diário equilibrado e Luna para tarefas rápidas e acessíveis. A empresa planeja tornar esses modelos amplamente disponíveis nas próximas semanas após esta fase inicial com parceiros confiáveis.

github llama.cpp · há 5 d

Lançamento do llama.cpp b9821: Flags de CLI e Binários Multiplataforma

O projeto llama.cpp lançou a versão b9821, que introduz atualizações na interface de linha de comando permitindo que os usuários invoquem as flags --version, --licenses e --help. Este lançamento fornece um conjunto abrangente de binários pré-compilados para macOS, Linux, Android, Windows e openEuler em vários aceleradores de hardware.

lab Claude Code Releases · há 5 d

Notas de Lançamento do Claude Code v2.1.195

A versão 2.1.195 do Claude Code introduz várias correções e melhorias, incluindo novas variáveis de ambiente para controle do mouse no modo de tela cheia e correções na lógica do hook matcher.

github llama.cpp · há 5 d

Lançamento b9820 do llama.cpp: menos sincronizações de CUDA e novos binários

O lançamento b9820 do llama.cpp introduz melhorias de desempenho ao reintroduzir menos sincronizações durante o cálculo dividido, focando especificamente nos backends CUDA. Esta atualização também fornece binários pré-compilados para macOS, Linux, Windows, Android e openEuler em CPUs, GPUs e aceleradores de hardware especializados.

github llama.cpp · há 5 d

Lançamento b9816 do llama.cpp: Sincronização com ggml e novos binários

O projeto llama.cpp lançou a versão b9816, que inclui uma sincronização com a biblioteca ggml. Esta atualização fornece binários pré-compilados para as plataformas macOS, iOS, Linux, Windows, Android e openEuler.

github llama.cpp · há 5 d

Lançamento llama.cpp b9817: atualização do OpenVINO 2026.2.1 e melhorias de operadores

O lançamento llama.cpp b9817 atualiza o backend do OpenVINO para a versão 2026.2.1 e torna seus pacotes de lançamento autossuficientes. Esta atualização inclui várias melhorias de operadores dentro do backend do OpenVINO, como a remoção dos conjos hardcoded compute_op_type e a habilitação do softmax com entrada sink.