Together AI na ICML 2026: pesquisa de ponta em toda a pilha
A Together AI está apresentando nove artigos na ICML 2026 que cobrem toda a pilha do desenvolvimento de sua plataforma.
A Together AI está apresentando nove artigos na ICML 2026 que cobrem toda a pilha do desenvolvimento de sua plataforma.
Este artigo apresenta o ScarfBench, um benchmark projetado para avaliar o desempenho de agentes de IA na migração de aplicações empresariais Java entre diferentes frameworks. O estudo destaca a complexidade da migração de frameworks e propõe um método de avaliação padronizado para avaliar as capacidades dos agentes neste domínio.
O projeto llama.cpp lançou a versão b9851, que inclui uma correção para a CUDA para prevenir erros de truncamento inteiro e estouro no kernel flash_attn_mask_to_KV_max. Esta atualização aborda problemas relacionados aos passos da máscara KQ dentro do kernel especificado.
O lançamento b9850 do llama.cpp introduz atualizações de suporte específico a modelos, incluindo o registro do tensor t_layer_inp para Qwen3Next, correção da atribuição de entrada no loop de processamento da camada e resolução de problemas DFLASH para qwen-coder-next. Também adiciona um tensor para normalização de atenção no modelo Qwen3.
A Microsoft Research apresenta o SkillOpt, um método que trata arquivos de habilidades de agentes como parâmetros treináveis fora de um modelo alvo congelado, transformando a edição manual de habilidades em um processo de otimização controlado. Esta abordagem melhora a confiabilidade e consistência dos agentes sem atualizar os pesos do modelo subjacente.
A Anthropic lançou o Claude Science em versão beta, uma bancada de trabalho com IA projetada para integrar ferramentas científicas fragmentadas em um único ambiente de pesquisa. A plataforma visa acelerar a descoberta fornecendo artefatos auditáveis, escalonamento flexível de computação e agentes especializados para domínios como genômica e biologia estrutural.
A Anthropic lançou o Claude Sonnet 5, um novo modelo de IA agêntica projetado para realizar planejamento complexo, uso de ferramentas e tarefas autônomas de codificação a um custo menor do que os modelos anteriores da classe Opus. A atualização reduz a lacuna de desempenho em relação ao Opus 4.8, enquanto oferece melhorias significativas no raciocínio, segurança e execução em comparação com seu antecessor, o Sonnet 4.6.
A Anthropic lançou a versão 2.1.197 do Claude Code, que atualiza o modelo padrão para Claude Sonnet 5. Este novo modelo possui uma janela de contexto nativa de 1M de tokens e está disponível com preço promocional até 31 de agosto.
O GeneBench-Pro é um benchmark projetado para avaliar modelos em tarefas complexas de raciocínio genômico, apresentando dez estudos de caso detalhados que exibem perguntas representativas e materiais de apoio. Cada estudo de caso fornece o prompt original, conjuntos de dados e o contexto necessários para avaliar o desempenho do modelo em desafios biológicos específicos.
O GeneBench-Pro é um benchmark de nível de pesquisa projetado para medir como agentes de IA lidam com ambiguidade e tomam decisões impactantes em biologia computacional, expandindo o GeneBench original. Ele aborda a limitação das avaliações atuais ao testar capacidades de ordem superior, como lidar com ruído nos dados, revisar suposições e determinar quando os resultados estão prontos para decisão.
Engenheiros da OpenAI resolveram falhas inexplicáveis em C++ em sua infraestrutura de dados Rockset ao identificar duas causas distintas: corrupção silenciosa de hardware em um host Azure e uma condição de corrida de 18 anos no GNU libunwind.
Os dados da OpenAI Signals revelam que a adoção do ChatGPT está se ampliando e aprofundando globalmente, com os usuários enviando 50% mais mensagens diariamente e dobrando o número de tarefas distintas experimentadas seis meses após o cadastro.
O lançamento b9849 do llama.cpp introduz suporte para literais IPv6 entre colchetes em autoridades de URL, permitindo que o servidor analise formas [host]:port conforme RFC 3986. Esta atualização garante a formatação adequada dos logs de escuta, cabeçalhos de proxy e reconstruções de cliente, mantendo o bare remote_addr para rastreamento por solicitação.
O Google lançou dois novos modelos de IA, Nano Banana 2 Lite e Gemini Omni Flash, projetados para aprimorar as capacidades dos desenvolvedores na criação de aplicações inteligentes.
O artigo argumenta que a especialização em machine learning é uma tendência inevitável impulsionada pela crescente complexidade dos modelos e pela necessidade de expertise específica do domínio.
O projeto llama.cpp lançou a versão b9848, que inclui uma correção crítica para o backend CUDA para resolver problemas com a função `get_rows_back` em tabelas com mais de 65535 linhas. Esta atualização corrige erros de clamping grid-y e stride que anteriormente afetavam operações em grandes tabelas.
O Hugging Face atualizou suas páginas de modelos para exibir resultados de avaliação da iniciativa 'Every Eval', fornecendo uma visão abrangente do desempenho do modelo em vários benchmarks. Essa integração permite que os usuários acessem uma ampla gama de métricas padronizadas diretamente na interface do hub de modelos.
O projeto llama.cpp lançou a versão b9847, que inclui uma correção para o Gemma E4B MTP FlashAttention no CUDA e a remoção de uma declaração de template não utilizada.
O projeto llama.cpp lançou a versão b9846, que inclui uma otimização do backend Vulkan para o Asahi Linux. Esta atualização reverte o loop do tamanho do bloco na multiplicação de matrizes para melhorar a compatibilidade e o desempenho no hardware Apple Silicon executando Linux.
O projeto llama.cpp lançou a versão b9844, que introduz o suporte ao ggml-webgpu para o formato de quantização NVFP4. Esta atualização também fornece binários pré-compilados para macOS, iOS, Linux, Android, Windows e openEuler em vários backends de hardware.