Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 16

Notas de Lançamento do MCP Python SDK v2.0.0a3

O SDK Python do Model Context Protocol (MCP) lançou sua terceira versão alpha, v2.0.0a3, introduzindo mudanças significativas no protocolo e na arquitetura, mantendo a compatibilidade com versões anteriores para usuários estáveis da 1.x.

github llama.cpp · há 6 d

Lançamento b9804 do llama.cpp: Correções para Mamba2 e novos binários

O lançamento b9804 do llama.cpp introduz uma correção para a arquitetura Mamba2, removendo um fator de expansão fixo de 2x e uma verificação de parâmetro inválida, permitindo suporte para qualquer valor de expansão. Esta alteração atualiza o script `convert_hf_to_gguf.py` para tornar o parâmetro expand opcional, com um padrão de 2.

media Hugging Face Forums · há 6 d

JoeBro: um espaço de trabalho AI nativo para macOS sem dependências

O JoeBro é um aplicativo nativo para macOS, local-first, projetado para fornecer um espaço de trabalho AI sem exigir dependências externas como pip ou Docker. Ele possui um backend Python embutido e armazenamento SQLite para garantir que todos os dados permaneçam na máquina do usuário, eliminando a necessidade de telemetria e contas.

media Hugging Face Forums · há 6 d

Como adicionar alguém a um conjunto de dados/banco de dados do Hugging Face?

O conteúdo da fonte fornecida indica que o tópico do post original foi excluído pelo autor. Consequentemente, nenhuma informação específica sobre o processo de adicionar usuários a um conjunto de dados ou banco de dados do Hugging Face está disponível neste excerto.

github CrewAI · há 6 d

Notas de Lançamento do crewAI 1.15.0

O lançamento do crewAI 1.15.0 introduz melhorias significativas nas definições de Flow, incluindo carregamento declarativo unificado, suporte a crew inline e novas ações compostas como `each` e ações de agente único.

github llama.cpp · há 6 d

lançamento b9803 do llama.cpp com correção de perfilamento OpenCL

O projeto llama.cpp lançou a versão b9803, que inclui uma correção para o OpenCL para liberar lotes de perfilamento no desligamento para lotes incompletos. Esta atualização fornece binários para macOS, Linux, Windows, Android e openEuler em vários backends de hardware.

github AutoGPT · há 6 d

Notas de Lançamento do AutoGPT Platform Beta v0.6.65

A plataforma AutoGPT lançou a versão 0.6.65, introduzindo atualizações significativas no sistema Copilot, na navegação da interface do usuário e na confiabilidade da infraestrutura.

github llama.cpp · há 6 d

Lançamento b9802 do llama.cpp fornece binários para macOS, Linux, Windows e Android

O projeto llama.cpp publicou o lançamento b9802, oferecendo binários pré-compilados em vários sistemas operacionais e arquiteturas de hardware. Esta atualização inclui suporte para CPU, GPU e aceleradores de IA especializados em plataformas como macOS, Linux, Windows, Android e openEuler.

github SGLang · há 6 d

v0.5.14

O artigo anuncia o lançamento da versão 0.5.14.

lab Claude Code Releases · há 7 d

Notas de Lançamento do Claude Code v2.1.193

A versão 2.1.193 do Claude Code introduz várias melhorias na classificação do modo automático, registro de telemetria e gerenciamento de agentes em segundo plano. Esta atualização também inclui correções para problemas de estado da interface do usuário, manipulação de autenticação em servidores MCP e vários bugs relacionados ao funcionamento em segundo plano.

lab Cohere Blog · há 7 d

Automatizando a manutenção de forks com agentes de IA

Este artigo descreve um método para automatizar a manutenção de forks de software usando agentes de codificação por IA, aplicando-o ao fork do vLLM pela Cohere. A abordagem reduz o tempo necessário para absorver lançamentos da ramificação principal de semanas para dias, substituindo a intervenção manual por um ciclo de feedback automatizado.

github Goose (Block) · há 7 d

v1.39.0

Esta versão tenta corrigir a compilação do Flatpak.

lab Microsoft Research Blog · há 7 d

Compreendendo o cérebro com explicações e experimentos orientados por IA

Pesquisadores desenvolveram o Teste Causal Generativo (GCT), uma estrutura que traduz modelos de previsão cerebral baseados em LLMs, não interpretáveis, em hipóteses verbais concisas e testáveis sobre a função cortical. Este método resume os parâmetros do modelo em frases curtas descrevendo a quais regiões específicas do cérebro elas respondem, como "preparação de alimentos", e então verifica essas explicações por meio de experimentos de fMRI direcionados.

lab Google — The Keyword (AI) · há 7 d

Google Finance sai da fase beta com novo aplicativo para Android

O Google Finance está oficialmente encerrando sua fase beta e lançando um aplicativo dedicado para dispositivos Android.

lab Hugging Face Blog · há 7 d

Execute um servidor vLLM no HF Jobs em um único comando

A Hugging Face introduziu um novo recurso que permite aos usuários implantar servidores vLLM diretamente pela plataforma Hugging Face Jobs usando um único comando.

github vLLM · há 7 d

v0.24.0rc2: Correção de P/D com Supervisor DP (#46628)

Esta versão candidata corrige a funcionalidade de Prefill/Decode (P/D) em conjunto com o Supervisor de Paralelismo de Dados (DP) no projeto vLLM.

github CrewAI · há 7 d

Notas de Lançamento do crewAI 1.14.8a5

A atualização da versão 1.14.8a5 do crewAI introduz alterações no gerenciamento de estado do fluxo, atualizações na documentação e esforços de refatoração.

lab Hugging Face Blog · há 7 d

Análise da Precisão de Predição de Tokens em Modelos de Linguagem Híbridos

Um estudo recente investiga quais tokens específicos são previstos com mais precisão por modelos de linguagem híbridos em comparação com arquiteturas densas padrão. A pesquisa foca em entender a distribuição dos erros de previsão entre diferentes tipos de tokens, como palavras raras e trechos de código. Ao analisar as paisagens de perda, os autores identificam que os modelos híbridos se destacam na captura de dependências de longo alcance em regiões de dados esparsos. Os achados sugerem que o mecanismo de mistura de especialistas permite uma utilização mais eficiente dos parâmetros durante a inferência. Essa precisão aprimorada é particularmente notável para tokens com baixa frequência no corpus de treinamento. O artigo fornece uma análise detalhada das métricas de desempenho em vários conjuntos de dados de benchmark. Esses resultados destacam o potencial das arquiteturas híbridas para lidar efetivamente com estruturas linguísticas diversas.

lab Cohere Blog · há 7 d

Cohere automatiza resposta a incidentes com North e Wiz por meio de servidor MCP personalizado

A Cohere desenvolveu um agente de segurança usando sua plataforma de IA corporativa, Cohere North, integrada à plataforma de segurança em nuvem Wiz por meio de um servidor Model Context Protocol (MCP) personalizado. Essa arquitetura conecta o North à API GraphQL da Wiz por meio de oito ferramentas atômicas, permitindo fluxos automatizados de resposta a incidentes a partir de um único prompt. O sistema realiza análise do raio de explosão de combinações tóxicas avaliando cadeias de ataque e classificando riscos com base na exposição à internet e nos níveis de privilégio em aproximadamente 20 segundos. Ele também automatiza a investigação de ponta a ponta, recuperando detalhes do problema, criando tickets no Linear, atualizando o status da Wiz e redigindo relatórios estruturados de Resposta a Incidentes. Além disso, uma automação semanal agendada gera um resumo da postura de segurança toda segunda-feira pela manhã sem intervenção manual. Essa integração elimina o ciclo de triagem anterior de 30 minutos a duas horas por achado, permitindo que os engenheiros se concentrem na avaliação das análises em vez de alertas brutos.

media Hugging Face Forums · há 7 d

Discussão sobre o Ajuste Fino de Modelos de Linguagem Pequenos com Baixo Custo em 2026

Uma recente discussão nos fóruns da Hugging Face explora os métodos mais eficientes para personalizar pequenos modelos de IA para tarefas específicas. O tópico, intitulado "Qual é a maneira mais econômica de ajustar finamente um modelo de linguagem pequeno em 2026?", busca conselhos sobre como minimizar despesas enquanto mantém o desempenho. Foi iniciado por um único participante que visa otimizar seu fluxo de trabalho para aplicações especializadas. A pergunta destaca o crescente interesse em aproveitar modelos menores para reduzir a sobrecarga computacional. Os participantes são encorajados a compartilhar estratégias que equilibrem custo e eficiência no cenário atual. Este tópico reflete os esforços contínuos para tornar a adaptação de modelos mais acessível e econômica.