Wmf: uma nova técnica experimental
O conteúdo do artigo foi removido pelo autor, não deixando informações substanciais sobre a técnica.
O conteúdo do artigo foi removido pelo autor, não deixando informações substanciais sobre a técnica.
Um não-programador compartilha sua experiência configurando uma infraestrutura de Modelo de Linguagem Grande local em um MacBook M5 Max com 128GB de memória unificada. O usuário detalha sua pilha de software, seleções de modelos e objetivos para aprender IA enquanto estabelece um sistema estável e acessível remotamente.
A Together AI está apresentando nove artigos na ICML 2026 que cobrem toda a pilha do desenvolvimento de sua plataforma.
A Hugging Face e a Cerebras integraram o modelo Gemma 4 do Google em suas plataformas para habilitar aplicações de inteligência artificial de voz em tempo real. Esta colaboração permite que os desenvolvedores aproveitem as capacidades multimodais do Gemma 4 para tarefas de processamento de áudio com baixa latência.
A empresa levantou US$ 800 milhões em uma rodada de financiamento Série C destinada a acelerar a transição para inteligência artificial de código aberto.
Este artigo apresenta o ScarfBench, um benchmark projetado para avaliar o desempenho de agentes de IA na migração de aplicações empresariais Java entre diferentes frameworks. O estudo destaca a complexidade da migração de frameworks e propõe um método de avaliação padronizado para avaliar as capacidades dos agentes neste domínio.
O lançamento do crewAI 1.15.2a1 introduz vários novos recursos, correções de bugs e atualizações de documentação para o framework de orquestração de agentes.
O projeto llama.cpp lançou a versão b9858, que inclui uma alteração para usar o split principal do Hugging Face como o caminho do modelo. Esta atualização resolve a issue #25181 referente aos caminhos de carregamento de modelos.
O lançamento b9857 do llama.cpp introduz uma reestruturação abrangente da implementação do Hexagon Flash Attention, focando em otimizações e melhorias de precisão. Esta atualização inclui mudanças significativas nos módulos hex-mm e hex-fa, como a incorporação de tarefas de quantização nos threads principais de matmul, fusão com operações ADD e otimização do processamento de máscaras.
O projeto llama.cpp lançou a versão b9855, que introduz uma otimização AVX2 para o produto interno nvfp4 usando uma Tabela de Busca (LUT) UE4M3 dentro do backend ggml-cpu.
O projeto llama.cpp lançou a versão b9856, introduzindo o uso consistente da palavra-chave `restrict` e PDL para Flash Attention em CUDA. Esta atualização é acompanhada por binários pré-compilados para macOS, Linux, Android, Windows e openEuler em vários backends de hardware.
A atualização remove o mecanismo de fallback de navegação do Progressive Web App (PWA). Essa alteração é implementada especificamente para evitar o armazenamento em cache não intencional de solicitações de endpoints da API.
O projeto llama.cpp lançou a versão b9852, introduzindo suporte inicial ao OpenCL para o formato de quantização q1_0. Esta atualização inclui capacidades gerais de q1_0 e implementações específicas de GEMM/GEMV para Adreno em dispositivos OpenCL.
A Anthropic está restaurando o acesso global aos seus modelos Claude Fable 5 e Mythos 5 após o governo dos EUA levantar os controles de exportação que haviam suspendido a disponibilidade para todos os usuários. O Fable 5 estará disponível globalmente a partir de 1º de julho na Plataforma Claude, com limites de uso aplicados até 7 de julho antes de mudar para acesso baseado em créditos.
O projeto llama.cpp lançou a versão b9851, que inclui uma correção para a CUDA para prevenir erros de truncamento inteiro e estouro no kernel flash_attn_mask_to_KV_max. Esta atualização aborda problemas relacionados aos passos da máscara KQ dentro do kernel especificado.
O lançamento b9850 do llama.cpp introduz atualizações de suporte específico a modelos, incluindo o registro do tensor t_layer_inp para Qwen3Next, correção da atribuição de entrada no loop de processamento da camada e resolução de problemas DFLASH para qwen-coder-next. Também adiciona um tensor para normalização de atenção no modelo Qwen3.
O SDK Python do Model Context Protocol (MCP) lançou sua primeira versão beta, v2.0.0b1, que introduz suporte completo à especificação MCP de 2026-07-28. Esta pré-lançamento é apenas por adesão opcional, garantindo que as instalações padrão continuem a resolver para a linha estável 1.x.
A Microsoft Research apresenta o SkillOpt, um método que trata arquivos de habilidades de agentes como parâmetros treináveis fora de um modelo alvo congelado, transformando a edição manual de habilidades em um processo de otimização controlado. Esta abordagem melhora a confiabilidade e consistência dos agentes sem atualizar os pesos do modelo subjacente.
A Anthropic lançou o Claude Science em versão beta, uma bancada de trabalho com IA projetada para integrar ferramentas científicas fragmentadas em um único ambiente de pesquisa. A plataforma visa acelerar a descoberta fornecendo artefatos auditáveis, escalonamento flexível de computação e agentes especializados para domínios como genômica e biologia estrutural.
A Anthropic lançou o Claude Sonnet 5, um novo modelo de IA agêntica projetado para realizar planejamento complexo, uso de ferramentas e tarefas autônomas de codificação a um custo menor do que os modelos anteriores da classe Opus. A atualização reduz a lacuna de desempenho em relação ao Opus 4.8, enquanto oferece melhorias significativas no raciocínio, segurança e execução em comparação com seu antecessor, o Sonnet 4.6.