Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 9

lançamento b9814 do llama.cpp com otimização de Vulkan para mi50

O projeto llama.cpp lançou a versão b9814, que inclui uma otimização para a operação `mul_mat_vecq` no Vulkan, direcionada especificamente à GPU AMD mi50. Esta atualização vem acompanhada de um conjunto abrangente de binários pré-compilados para vários sistemas operacionais e arquiteturas de hardware.

github MCP (GitHub org) · há 5 d

Notas de Lançamento do MCP Python SDK v2.0.0a3

O SDK Python do Model Context Protocol (MCP) lançou sua terceira versão alpha, v2.0.0a3, introduzindo mudanças significativas no protocolo e na arquitetura, mantendo a compatibilidade com versões anteriores para usuários estáveis da 1.x.

github llama.cpp · há 5 d

Lançamento b9811 do llama.cpp com solução alternativa para compilador Vulkan

O projeto llama.cpp lançou a versão b9811, que inclui uma correção para um bug do compilador que afeta o caminho conv2d coopmat2 no Vulkan. Essa solução alternativa também foi aplicada à implementação CONV_3D com base nas sugestões do engenheiro da NVIDIA Jeff Bolz.

github llama.cpp · há 5 d

lançamento b9810 do llama.cpp adiciona mapeamento cublasSgemmBatched e novos binários

O projeto llama.cpp lançou a versão b9810, introduzindo um mapeamento CUDA para `cublasSgemmBatched` nos cabeçalhos de fornecedores HIP/MUSA. Esta atualização é acompanhada por um conjunto abrangente de binários pré-compilados para plataformas macOS, Linux, Windows, Android e openEuler.

github MCP (GitHub org) · há 5 d

Lançamento do SDK Python do Model Context Protocol v1.28.1

O SDK Python do Model Context Protocol lançou a versão 1.28.1, introduzindo atualizações no tratamento de streams e na segurança de transporte.

github llama.cpp · há 6 d

Lançamento b9804 do llama.cpp: Correções para Mamba2 e novos binários

O lançamento b9804 do llama.cpp introduz uma correção para a arquitetura Mamba2, removendo um fator de expansão fixo de 2x e uma verificação de parâmetro inválida, permitindo suporte para qualquer valor de expansão. Esta alteração atualiza o script `convert_hf_to_gguf.py` para tornar o parâmetro expand opcional, com um padrão de 2.

github llama.cpp · há 6 d

lançamento b9803 do llama.cpp com correção de perfilamento OpenCL

O projeto llama.cpp lançou a versão b9803, que inclui uma correção para o OpenCL para liberar lotes de perfilamento no desligamento para lotes incompletos. Esta atualização fornece binários para macOS, Linux, Windows, Android e openEuler em vários backends de hardware.

github llama.cpp · há 6 d

Lançamento b9802 do llama.cpp fornece binários para macOS, Linux, Windows e Android

O projeto llama.cpp publicou o lançamento b9802, oferecendo binários pré-compilados em vários sistemas operacionais e arquiteturas de hardware. Esta atualização inclui suporte para CPU, GPU e aceleradores de IA especializados em plataformas como macOS, Linux, Windows, Android e openEuler.

github SGLang · há 6 d

v0.5.14

O artigo anuncia o lançamento da versão 0.5.14.

lab Claude Code Releases · há 6 d

Notas de Lançamento do Claude Code v2.1.193

A versão 2.1.193 do Claude Code introduz várias melhorias na classificação do modo automático, registro de telemetria e gerenciamento de agentes em segundo plano. Esta atualização também inclui correções para problemas de estado da interface do usuário, manipulação de autenticação em servidores MCP e vários bugs relacionados ao funcionamento em segundo plano.

lab Cohere Blog · há 6 d

Automatizando a manutenção de forks com agentes de IA

Este artigo descreve um método para automatizar a manutenção de forks de software usando agentes de codificação por IA, aplicando-o ao fork do vLLM pela Cohere. A abordagem reduz o tempo necessário para absorver lançamentos da ramificação principal de semanas para dias, substituindo a intervenção manual por um ciclo de feedback automatizado.

lab Microsoft Research Blog · há 6 d

Compreendendo o cérebro com explicações e experimentos orientados por IA

Pesquisadores desenvolveram o Teste Causal Generativo (GCT), uma estrutura que traduz modelos de previsão cerebral baseados em LLMs, não interpretáveis, em hipóteses verbais concisas e testáveis sobre a função cortical. Este método resume os parâmetros do modelo em frases curtas descrevendo a quais regiões específicas do cérebro elas respondem, como "preparação de alimentos", e então verifica essas explicações por meio de experimentos de fMRI direcionados.

lab Google — The Keyword (AI) · há 6 d

Google Finance sai da fase beta com novo aplicativo para Android

O Google Finance está oficialmente encerrando sua fase beta e lançando um aplicativo dedicado para dispositivos Android.

github vLLM · há 6 d

v0.24.0rc2: Correção de P/D com Supervisor DP (#46628)

Esta versão candidata corrige a funcionalidade de Prefill/Decode (P/D) em conjunto com o Supervisor de Paralelismo de Dados (DP) no projeto vLLM.

lab Cohere Blog · há 6 d

Cohere automatiza resposta a incidentes com North e Wiz por meio de servidor MCP personalizado

A Cohere desenvolveu um agente de segurança usando sua plataforma de IA corporativa, Cohere North, integrada à plataforma de segurança em nuvem Wiz por meio de um servidor Model Context Protocol (MCP) personalizado. Essa arquitetura conecta o North à API GraphQL da Wiz por meio de oito ferramentas atômicas, permitindo fluxos automatizados de resposta a incidentes a partir de um único prompt. O sistema realiza análise do raio de explosão de combinações tóxicas avaliando cadeias de ataque e classificando riscos com base na exposição à internet e nos níveis de privilégio em aproximadamente 20 segundos. Ele também automatiza a investigação de ponta a ponta, recuperando detalhes do problema, criando tickets no Linear, atualizando o status da Wiz e redigindo relatórios estruturados de Resposta a Incidentes. Além disso, uma automação semanal agendada gera um resumo da postura de segurança toda segunda-feira pela manhã sem intervenção manual. Essa integração elimina o ciclo de triagem anterior de 30 minutos a duas horas por achado, permitindo que os engenheiros se concentrem na avaliação das análises em vez de alertas brutos.

github llama.cpp · há 6 d

llama.cpp b9788 adiciona paralelismo de tensores via SYCL para configurações com duas GPUs

A versão b9788 do llama.cpp introduz suporte ao paralelismo de tensores por meio da flag --split-mode tensor no backend SYCL. Esta implementação permite a comunicação entre duas GPUs adicionando as funções comm_init, comm_free e comm_allreduce_tensor ao meta-backend. Para dois dispositivos, utiliza uma estratégia de ring all-reduce que alterna entre memcpy direto em FP32 para tensores pequenos e compressão BF16 para tensores maiores. O código evita o OneCCL devido à sua limitação de um dispositivo por processo, utilizando buffers persistentes para manter as invariantes do pool SYCL. Testes de desempenho em duas GPUs Intel Arc Pro B70 mostram acelerations significativas em relação ao modo layer para os modelos Llama-3.3-70B e Qwen3-Coder-Next-80B-A3B. A atualização inclui novos binários para macOS, Linux, Windows, Android e openEuler nos alvos CPU, CUDA, ROCm, Vulkan e SYCL.

github llama.cpp · há 6 d

Lançamento b9789 do llama.cpp corrige quantização MoE e fornece binários multiplataforma

O projeto llama.cpp lançou a versão b9789, que inclui uma correção crítica para a quantização de modelos Mixture of Experts (MoE) com previsão multitempo. Esta atualização aborda problemas identificados no pull request #24986 para garantir o tratamento adequado dessas arquiteturas de modelo específicas. O lançamento fornece binários pré-compilados para macOS Apple Silicon e Intel, além de um iOS XCFramework. Usuários do Linux podem baixar builds para Ubuntu nos backends CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL. O suporte para Windows inclui variantes CPU, CUDA 12.4 e 13.3, Vulkan, OpenVINO, SYCL e HIP. Plataformas adicionais como Android arm64 e openEuler também são suportadas com configurações de hardware específicas.

lab OpenAI News · há 6 d

Pesquisa da OpenAI mostra que agentes de IA estão transformando o trabalho

Um novo artigo de pesquisa da OpenAI demonstra como os agentes de inteligência artificial estão mudando fundamentalmente a natureza do trabalho. O estudo destaca a capacidade desses agentes de executar tarefas mais longas e complexas do que era possível anteriormente. Esse avanço tecnológico é creditado por expandir a produtividade em uma ampla variedade de funções profissionais. As descobertas sugerem uma mudança significativa na forma como o trabalho é organizado e realizado por meio da automação. Ao lidar com fluxos de trabalho intricados, os agentes de IA estão permitindo que os usuários alcancem maior eficiência. O artigo serve como evidência do crescente impacto dos sistemas autônomos no emprego moderno.

github llama.cpp · há 7 d

Corrigir casos de teste unitários falhos para conv_3d no SYCL

O repositório llama.cpp abordou uma questão específica relacionada ao backend SYCL. Um pull request foi submetido para corrigir os casos de teste unitários falhos associados à operação conv_3d. Esta atualização direciona-se ao projeto ggml-org/llama.cpp no GitHub. As alterações resolvem erros que anteriormente impediam a execução bem-sucedida desses testes. Esta correção garante maior estabilidade para usuários que dependem de aceleração de hardware baseada em SYCL.

github llama.cpp · há 7 d

Lançamento b9786 do llama.cpp adiciona suporte a linhas não contíguas via OpenCL

O projeto llama.cpp lançou a versão b9786, introduzindo suporte para linhas não contíguas na normalização por meio do OpenCL. Esta atualização faz parte do desenvolvimento contínuo pela equipe ggml-org para melhorar a compatibilidade de hardware e o desempenho em várias plataformas. O lançamento fornece binários para macOS Apple Silicon, Macs Intel e XCFrameworks para iOS. Usuários de Linux podem acessar builds para as arquiteturas Ubuntu x64, arm64 e s390x usando backends de CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL. O suporte para Android está disponível para dispositivos com CPU arm64, enquanto o Windows oferece opções extensas incluindo CPU, CUDA 12 e 13, Vulkan, OpenVINO, SYCL e HIP. O lançamento também lista builds desativados para KleidiAI nas plataformas macOS e openEuler.