Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 13

Together AI na ICML 2026: pesquisa de ponta em toda a pilha

A Together AI está apresentando nove artigos na ICML 2026 que cobrem toda a pilha do desenvolvimento de sua plataforma.

ScarfBench: Avaliando Agentes de IA para Migração de Frameworks Enterprise Java

Este artigo apresenta o ScarfBench, um benchmark projetado para avaliar o desempenho de agentes de IA na migração de aplicações empresariais Java entre diferentes frameworks. O estudo destaca a complexidade da migração de frameworks e propõe um método de avaliação padronizado para avaliar as capacidades dos agentes neste domínio.

github llama.cpp · há 23 h

Lançamento b9851 do llama.cpp corrige truncamento inteiro da CUDA e fornece binários

O projeto llama.cpp lançou a versão b9851, que inclui uma correção para a CUDA para prevenir erros de truncamento inteiro e estouro no kernel flash_attn_mask_to_KV_max. Esta atualização aborda problemas relacionados aos passos da máscara KQ dentro do kernel especificado.

github llama.cpp · há 23 h

Lançamento b9850 do llama.cpp: correções para Qwen3 e novos binários

O lançamento b9850 do llama.cpp introduz atualizações de suporte específico a modelos, incluindo o registro do tensor t_layer_inp para Qwen3Next, correção da atribuição de entrada no loop de processamento da camada e resolução de problemas DFLASH para qwen-coder-next. Também adiciona um tensor para normalização de atenção no modelo Qwen3.

lab Microsoft Research Blog · há 1 d

SkillOpt: Habilidades de agentes como parâmetros treináveis

A Microsoft Research apresenta o SkillOpt, um método que trata arquivos de habilidades de agentes como parâmetros treináveis fora de um modelo alvo congelado, transformando a edição manual de habilidades em um processo de otimização controlado. Esta abordagem melhora a confiabilidade e consistência dos agentes sem atualizar os pesos do modelo subjacente.

lab Anthropic News · há 1 d

Claude Science, uma bancada de trabalho com IA para cientistas, já está disponível

A Anthropic lançou o Claude Science em versão beta, uma bancada de trabalho com IA projetada para integrar ferramentas científicas fragmentadas em um único ambiente de pesquisa. A plataforma visa acelerar a descoberta fornecendo artefatos auditáveis, escalonamento flexível de computação e agentes especializados para domínios como genômica e biologia estrutural.

lab Anthropic News · há 1 d

Apresentando o Claude Sonnet 5

A Anthropic lançou o Claude Sonnet 5, um novo modelo de IA agêntica projetado para realizar planejamento complexo, uso de ferramentas e tarefas autônomas de codificação a um custo menor do que os modelos anteriores da classe Opus. A atualização reduz a lacuna de desempenho em relação ao Opus 4.8, enquanto oferece melhorias significativas no raciocínio, segurança e execução em comparação com seu antecessor, o Sonnet 4.6.

lab Claude Code Releases · há 1 d

Claude Code v2.1.197 apresenta o Claude Sonnet 5

A Anthropic lançou a versão 2.1.197 do Claude Code, que atualiza o modelo padrão para Claude Sonnet 5. Este novo modelo possui uma janela de contexto nativa de 1M de tokens e está disponível com preço promocional até 31 de agosto.

lab OpenAI News · há 1 d

Dentro do GeneBench-Pro: 10 Estudos de Caso de Raciocínio Genômico Complexo

O GeneBench-Pro é um benchmark projetado para avaliar modelos em tarefas complexas de raciocínio genômico, apresentando dez estudos de caso detalhados que exibem perguntas representativas e materiais de apoio. Cada estudo de caso fornece o prompt original, conjuntos de dados e o contexto necessários para avaliar o desempenho do modelo em desafios biológicos específicos.

lab OpenAI News · há 1 d

Apresentando o GeneBench-Pro

O GeneBench-Pro é um benchmark de nível de pesquisa projetado para medir como agentes de IA lidam com ambiguidade e tomam decisões impactantes em biologia computacional, expandindo o GeneBench original. Ele aborda a limitação das avaliações atuais ao testar capacidades de ordem superior, como lidar com ruído nos dados, revisar suposições e determinar quando os resultados estão prontos para decisão.

lab OpenAI News · há 1 d

Epidemiologia de core dumps: corrigindo um bug de 18 anos

Engenheiros da OpenAI resolveram falhas inexplicáveis em C++ em sua infraestrutura de dados Rockset ao identificar duas causas distintas: corrupção silenciosa de hardware em um host Azure e uma condição de corrida de 18 anos no GNU libunwind.

lab OpenAI News · há 1 d

Como a adoção do ChatGPT se expandiu

Os dados da OpenAI Signals revelam que a adoção do ChatGPT está se ampliando e aprofundando globalmente, com os usuários enviando 50% mais mensagens diariamente e dobrando o número de tarefas distintas experimentadas seis meses após o cadastro.

github llama.cpp · há 1 d

Lançamento b9849 do llama.cpp: manipulação de URLs IPv6 e novos binários

O lançamento b9849 do llama.cpp introduz suporte para literais IPv6 entre colchetes em autoridades de URL, permitindo que o servidor analise formas [host]:port conforme RFC 3986. Esta atualização garante a formatação adequada dos logs de escuta, cabeçalhos de proxy e reconstruções de cliente, mantendo o bare remote_addr para rastreamento por solicitação.

lab Google DeepMind Blog · há 1 d

Comece a construir com Nano Banana 2 Lite e Gemini Omni Flash

O Google lançou dois novos modelos de IA, Nano Banana 2 Lite e Gemini Omni Flash, projetados para aprimorar as capacidades dos desenvolvedores na criação de aplicações inteligentes.

lab Hugging Face Blog · há 1 d

Por que a Especialização é Inevitável

O artigo argumenta que a especialização em machine learning é uma tendência inevitável impulsionada pela crescente complexidade dos modelos e pela necessidade de expertise específica do domínio.

github llama.cpp · há 2 d

Lançamento b9848 do llama.cpp corrige get_rows_back no CUDA e fornece binários

O projeto llama.cpp lançou a versão b9848, que inclui uma correção crítica para o backend CUDA para resolver problemas com a função `get_rows_back` em tabelas com mais de 65535 linhas. Esta atualização corrige erros de clamping grid-y e stride que anteriormente afetavam operações em grandes tabelas.

lab Hugging Face Blog · há 2 d

Resultados de Todo o Eval Exibidos nas Páginas de Modelos do Hugging Face

O Hugging Face atualizou suas páginas de modelos para exibir resultados de avaliação da iniciativa 'Every Eval', fornecendo uma visão abrangente do desempenho do modelo em vários benchmarks. Essa integração permite que os usuários acessem uma ampla gama de métricas padronizadas diretamente na interface do hub de modelos.

github llama.cpp · há 2 d

lançamento b9847 do llama.cpp corrige Gemma E4B MTP FlashAttention

O projeto llama.cpp lançou a versão b9847, que inclui uma correção para o Gemma E4B MTP FlashAttention no CUDA e a remoção de uma declaração de template não utilizada.

github llama.cpp · há 2 d

Lançamento b9846 do llama.cpp com otimização de matmul Vulkan para Asahi Linux

O projeto llama.cpp lançou a versão b9846, que inclui uma otimização do backend Vulkan para o Asahi Linux. Esta atualização reverte o loop do tamanho do bloco na multiplicação de matrizes para melhorar a compatibilidade e o desempenho no hardware Apple Silicon executando Linux.

github llama.cpp · há 2 d

Lançamento b9844 do llama.cpp adiciona suporte a NVFP4 e novos binários

O projeto llama.cpp lançou a versão b9844, que introduz o suporte ao ggml-webgpu para o formato de quantização NVFP4. Esta atualização também fornece binários pré-compilados para macOS, iOS, Linux, Android, Windows e openEuler em vários backends de hardware.