Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 22

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 7 h

LACUNA: Uma plataforma de testes para avaliar a precisão de localização no esquecimento de LLMs

Pesquisadores apresentam o LACUNA, a primeira plataforma de testes de esquecimento com localização em nível de parâmetros com ground-truth para abordar a lacuna na avaliação de se o esquecimento realmente apaga o conhecimento dos parâmetros do modelo. A plataforma injeta PII de indivíduos sintéticos em parâmetros predefinidos de modelos baseados em OLMo de 1B e 7B por meio de pré-treinamento contínuo mascarado.

blog Simon Willison · há 7 h

Compreender para participar

Geoffrey Litt argumenta que os desenvolvedores devem compreender profundamente o código gerado por agentes de codificação para evitar dívida cognitiva e permanecer participantes ativos no processo criativo.

media r/LocalLLaMA · há 7 h

OpenLumara agora conecta qualquer UI a modelos locais via endpoint da OpenAI

O framework de código aberto OpenLumara agora suporta conexão com qualquer interface de usuário que possa se comunicar com um endpoint da OpenAI, como KoboldLite e OpenWebUI. Esta atualização permite que os usuários integrem o harness eficiente em tokens em seus fluxos de trabalho existentes sem alterar seu frontend preferido.

media r/LocalLLaMA · há 7 h

Alguém está usando LLMs locais para geração em larga escala de dados espaciais ou layout de cidades em software como o QGIS?

Um usuário está buscando recomendações de modelos de linguagem locais capazes de gerar dados estruturais em larga escala, como layouts inteiros de cidades, redes rodoviárias e sistemas de grade complexos.

blog Simon Willison · há 8 h

llm-coding-agent 0.1a0

Simon Willison lançou o llm-coding-agent 0.1a0, um experimento inicial na construção de um agente de codificação simples usando sua biblioteca LLM como estrutura de agente. O projeto foi gerado solicitando ao Claude Code que escrevesse uma especificação e implementasse a ferramenta usando TDD vermelho/verde.

media r/LocalLLaMA · há 8 h

Dica: use este PR do llama.cpp para melhorar o PP no Intel ARC

Um pull request da comunidade para o llama.cpp melhora significativamente a velocidade de processamento de prompts para usuários do Intel ARC, beneficiando especificamente hardware como o B580. O contribuidor otimizou o código com assistência do Claude para acelerar o manuseio do contexto.

media r/LocalLLaMA · há 8 h

Pesquisadores constroem verme de IA autorreplicante que opera inteiramente com modelos locais de pesos abertos

Um novo artigo do Arxiv detalha a criação de um verme de IA autorreplicante que funciona inteiramente usando modelos locais de pesos abertos. Este desenvolvimento destaca o potencial de agentes de IA autônomos para operar sem dependências externas.

media r/LocalLLaMA · há 8 h

Em direção a uma melhor geração de kernels HIP para GPUs AMD: Dados sintéticos, busca multiagente e aprendizado por reforço

Este artigo do blog Scaling Intelligence da Stanford discute métodos para melhorar a geração de kernels HIP para GPUs AMD usando dados sintéticos, busca multiagente e aprendizado por reforço.

lab ByteDance Seed (HF) · há 8 h

ByteDance-Seed/PAR: Checkpoints de Modelagem Autoregressiva de Proteínas

Este repositório fornece checkpoints do modelo para a Modelagem Autoregressiva de Proteínas por meio de Geração de Estrutura Multiescala, que foi aceita como apresentação oral no ICML 2026.

lab Claude Code Releases · há 9 h

Notas de lançamento do Claude Code v2.1.199

A atualização do Claude Code v2.1.199 aborda inúmeros problemas de estabilidade e usabilidade, incluindo correções para erros de certificados SSL, tratamento de respostas em streaming e gerenciamento de agentes em segundo plano.

lab Anthropic News · há 9 h

Anthropic detalha salvaguardas cibernéticas do Fable 5 e framework de jailbreak

A Anthropic reimplantou o Claude Fable 5 globalmente e publicou informações detalhadas sobre seus classificadores de segurança cibernética e um framework proposto de severidade de jailbreak de IA. A empresa visa estabelecer terminologia consistente para discutir riscos de jailbreak com governos, enquanto convida a comunidade mais ampla a fornecer feedback.

media r/LocalLLaMA · há 9 h

R9700 duplo: Melhor fórmula para Qwen3.6 27B?

Um usuário investiga a otimização do modelo Qwen3.6-27B em uma configuração com duas GPUs AMD Radeon R9700 usando llama.cpp, comparando o desempenho entre os backends Vulkan e ROCm.

media r/LocalLLaMA · há 9 h

Kernels WebGPU para Gemma 4 alcançam 255 tok/s

Xenova lançou kernels WebGPU para o Gemma 4, alcançando uma performance de 255 tokens por segundo. Esta otimização permite que modelos densos rodem a velocidades superiores a 100 tok/s em navegadores web.

blog Simon Willison · há 9 h

Usando DSPy para avaliar e melhorar os prompts do sistema SQL do Agente Datasette

Simon Willison utilizou o Claude Code com o modelo Fable 5 para automatizar a avaliação e otimização dos prompts do sistema para o Agente Datasette, focando especificamente em seu recurso de execução de consultas SQL apenas para leitura. O processo envolveu instalar a última versão alpha do Datasette e DSPy para identificar fraquezas na forma como o agente lida com informações de esquema.

media r/LocalLLaMA · há 10 h

Pioneiro de IA da Nvidia rejeita AGI e compara OpenAI e Anthropic à AOL

Uma figura proeminente da Nvidia afirmou que não acredita em Inteligência Geral Artificial (AGI) e argumenta que o foco da indústria deve mudar para modelos personalizados de código aberto para empresas.

media r/LocalLLaMA · há 10 h

Benchmarks locais com uma RTX 3090 - Qwen3.6 27b vs Ornith

Um usuário comparou Qwen3.6 27b, Gemma4 26B A4B QAT e Ornith1.0 35B MoE usando o framework inspect-ai em uma RTX 3090 para avaliar o desempenho de modelos locais. Os testes revelaram resultados mistos nos benchmarks de conhecimento geral, fundamentação e codificação, com Qwen3.6 geralmente liderando nas pontuações, enquanto Ornith mostrou pontos fortes em áreas específicas como DROP.

media r/LocalLLaMA · há 11 h

Usuário estende Gemma 4 31B para um modelo de 44B com 88 camadas

Um usuário do Reddit estendeu o modelo Google Gemma 4 31B, que tem 60 camadas, para uma versão maior de 44B parâmetros contendo 88 camadas. Esta modificação foi realizada porque a Google não lançou uma versão densa maior do modelo para uso no Lyzr Architect.

media Hugging Face Forums · há 11 h

Saturação de evidências k*: a profundidade de recuperação deve ser calibrada, não adivinhada

Um benchmark piloto sobre profundidade de evidências para chamadas LLM argumenta que a calibração deve se estender além da correção factual para incluir contaminação epistêmica e vazamento de enquadramento. O estudo define 'k*' como o ponto de saturação de evidências onde a confiabilidade é maximizada, distinguindo-o das métricas padrão top-k do recuperador ou de densidade de estado.

media Hugging Face Forums · há 11 h

Teste de estresse epistêmico — Claude Sonnet 5 validado por MarCognity-AI

O artigo descreve uma validação do Claude Sonnet 5 usando o Agente Cético da MarCognity-AI para expor a lacuna entre a confiança textual e a verificabilidade real, denominada "fratura epistêmica".