Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 6

Lançamento b9828 do llama.cpp: Melhorias no Flash Attention via OpenCL e novos binários

O lançamento b9828 do llama.cpp introduz melhorias significativas no OpenCL, reestruturando especificamente os kernels do Flash Attention para precisão f16 e f32. Esta atualização inclui novos kernels de pré-prefill e suporte para formatos de quantização q4_0 e q8_0.

github llama.cpp · há 4 d

lançamento b9827 do llama.cpp adiciona otimização de cópia assíncrona 2D do CUDA

O lançamento b9827 do llama.cpp introduz uma otimização de desempenho para o CUDA, adicionando um caminho rápido cudaMemcpy2DAsync à função ggml_cuda_cpy. Esta alteração acelera cópias em stride com mesmo tipo e mesma forma, onde os tensores não são totalmente contíguos, mas cada linha é contígua, substituindo kernels de cópia escalar elemento a elemento mais lentos.

github llama.cpp · há 4 d

Lançamento b9825 do llama.cpp: Correção de Vulkan e Binários Multiplataforma

O projeto llama.cpp lançou a versão b9825, que inclui uma correção para o operador de etapa do Vulkan ao lidar com entradas zero. Esta atualização fornece binários pré-compilados para macOS, Linux, Windows, Android e openEuler em vários backends de hardware.

github llama.cpp · há 4 d

Lançamento b9826 do llama.cpp com correção de norma SYCL

O projeto llama.cpp publicou o lançamento b9826, que inclui uma correção para casos de teste unitários falhos relacionados à função norm no SYCL. Esta atualização fornece binários pré-compilados e frameworks em múltiplas plataformas e aceleradores de hardware.

github llama.cpp · há 4 d

lançamento b9822 do llama.cpp com binários para macOS, Linux e Windows

O projeto llama.cpp publicou o lançamento b9822, fornecendo binários pré-compilados para macOS, iOS, Linux, Android e Windows. Esta atualização inclui uma correção para a opção --no-common do test-chat-template e distribui builds para várias arquiteturas de hardware e aceleradores.

github llama.cpp · há 4 d

lançamento b9823 do llama.cpp adiciona OpenVINO para Windows e atualiza binários

O projeto llama.cpp publicou a versão b9823, fornecendo binários pré-compilados para as plataformas macOS, iOS, Linux, Android, Windows e openEuler. Uma mudança importante neste lançamento é a adição de uma compilação do OpenVINO para Windows ao pipeline check-release.

github llama.cpp · há 4 d

Lançamento b9824 do llama.cpp: renomeação de binários e novas compilações

O projeto llama.cpp lançou a versão b9824, que inclui melhorias nos binários rpc-server e export-graph-ops. A ferramenta `export-graph-ops` foi renomeada para seguir as convenções de nomenclatura de testes, enquanto `rpc-server` foi renomeado para `ggml-rpc-server` para evitar conflitos em diretórios do sistema.

github vLLM · há 5 d

v0.24.0

A versão v0.24.0 inclui uma atualização de integração contínua para aumentar o tempo limite de inicialização do GSM8K para as configurações MoE Refactor Qwen3 NVFP4.

lab OpenAI News · há 5 d

OpenAI antecipa modelos GPT-5.6 Sol, Terra e Luna

A OpenAI iniciou uma prévia limitada da série GPT-5.6, apresentando três novos modelos: Sol como o principal, Terra para trabalho diário equilibrado e Luna para tarefas rápidas e acessíveis. A empresa planeja tornar esses modelos amplamente disponíveis nas próximas semanas após esta fase inicial com parceiros confiáveis.

github llama.cpp · há 5 d

Lançamento do llama.cpp b9821: Flags de CLI e Binários Multiplataforma

O projeto llama.cpp lançou a versão b9821, que introduz atualizações na interface de linha de comando permitindo que os usuários invoquem as flags --version, --licenses e --help. Este lançamento fornece um conjunto abrangente de binários pré-compilados para macOS, Linux, Android, Windows e openEuler em vários aceleradores de hardware.

lab Claude Code Releases · há 5 d

Notas de Lançamento do Claude Code v2.1.195

A versão 2.1.195 do Claude Code introduz várias correções e melhorias, incluindo novas variáveis de ambiente para controle do mouse no modo de tela cheia e correções na lógica do hook matcher.

github llama.cpp · há 5 d

Lançamento b9820 do llama.cpp: menos sincronizações de CUDA e novos binários

O lançamento b9820 do llama.cpp introduz melhorias de desempenho ao reintroduzir menos sincronizações durante o cálculo dividido, focando especificamente nos backends CUDA. Esta atualização também fornece binários pré-compilados para macOS, Linux, Windows, Android e openEuler em CPUs, GPUs e aceleradores de hardware especializados.

github llama.cpp · há 5 d

Lançamento b9816 do llama.cpp: Sincronização com ggml e novos binários

O projeto llama.cpp lançou a versão b9816, que inclui uma sincronização com a biblioteca ggml. Esta atualização fornece binários pré-compilados para as plataformas macOS, iOS, Linux, Windows, Android e openEuler.

github llama.cpp · há 5 d

Lançamento llama.cpp b9817: atualização do OpenVINO 2026.2.1 e melhorias de operadores

O lançamento llama.cpp b9817 atualiza o backend do OpenVINO para a versão 2026.2.1 e torna seus pacotes de lançamento autossuficientes. Esta atualização inclui várias melhorias de operadores dentro do backend do OpenVINO, como a remoção dos conjos hardcoded compute_op_type e a habilitação do softmax com entrada sink.

github llama.cpp · há 5 d

Lançamento b9813 do llama.cpp adiciona suporte ao Vulkan para Intel Xe-LPG Plus

O lançamento b9813 do llama.cpp introduz suporte ao Vulkan para hardware Intel Xe-LPG Plus, adicionando o enum de arquitetura INTEL_XE1 e habilitando coopmat1. Esta atualização aborda comentários anteriores no código, renomeia o identificador de arquitetura e inclui uma verificação de driver do Windows.

github llama.cpp · há 5 d

lançamento b9814 do llama.cpp com otimização de Vulkan para mi50

O projeto llama.cpp lançou a versão b9814, que inclui uma otimização para a operação `mul_mat_vecq` no Vulkan, direcionada especificamente à GPU AMD mi50. Esta atualização vem acompanhada de um conjunto abrangente de binários pré-compilados para vários sistemas operacionais e arquiteturas de hardware.

github MCP (GitHub org) · há 5 d

Notas de Lançamento do MCP Python SDK v2.0.0a3

O SDK Python do Model Context Protocol (MCP) lançou sua terceira versão alpha, v2.0.0a3, introduzindo mudanças significativas no protocolo e na arquitetura, mantendo a compatibilidade com versões anteriores para usuários estáveis da 1.x.

github llama.cpp · há 5 d

Lançamento b9811 do llama.cpp com solução alternativa para compilador Vulkan

O projeto llama.cpp lançou a versão b9811, que inclui uma correção para um bug do compilador que afeta o caminho conv2d coopmat2 no Vulkan. Essa solução alternativa também foi aplicada à implementação CONV_3D com base nas sugestões do engenheiro da NVIDIA Jeff Bolz.

github llama.cpp · há 5 d

lançamento b9810 do llama.cpp adiciona mapeamento cublasSgemmBatched e novos binários

O projeto llama.cpp lançou a versão b9810, introduzindo um mapeamento CUDA para `cublasSgemmBatched` nos cabeçalhos de fornecedores HIP/MUSA. Esta atualização é acompanhada por um conjunto abrangente de binários pré-compilados para plataformas macOS, Linux, Windows, Android e openEuler.

github MCP (GitHub org) · há 5 d

Lançamento do SDK Python do Model Context Protocol v1.28.1

O SDK Python do Model Context Protocol lançou a versão 1.28.1, introduzindo atualizações no tratamento de streams e na segurança de transporte.