Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 22

media r/LocalLLaMA · agora mesmo Ao vivo

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 5 h

Monitoramento de segurança online para LLMs

O artigo aborda a persistência de saídas inseguras em modelos de linguagem grandes durante a implantação e propõe uma solução de monitoramento em tempo real. Introduz um monitor simples que converte sinais do verificador de um modelo externo em decisões de alarme por meio de limiarização, com limiares calibrados via controle de risco.

arxiv arXiv cs.CL · há 6 h

Program-as-Weights: Um Paradigma de Programação para Funções Difusas

O artigo apresenta o Program-as-Weights (PAW), um paradigma que compila especificações em linguagem natural em artefatos neurais compactos e executáveis localmente para substituir APIs de modelos de linguagem grandes. Esta abordagem visa melhorar a localidade, reprodutibilidade e custo ao tratar modelos fundamentais como construtores de ferramentas em vez de solucionadores de problemas por entrada.

arxiv arXiv cs.CL · há 6 h

LACUNA: Uma plataforma de testes para avaliar a precisão de localização no esquecimento de LLMs

Pesquisadores apresentam o LACUNA, a primeira plataforma de testes de esquecimento com localização em nível de parâmetros com ground-truth para abordar a lacuna na avaliação de se o esquecimento realmente apaga o conhecimento dos parâmetros do modelo. A plataforma injeta PII de indivíduos sintéticos em parâmetros predefinidos de modelos baseados em OLMo de 1B e 7B por meio de pré-treinamento contínuo mascarado.

blog Simon Willison · há 6 h

Compreender para participar

Geoffrey Litt argumenta que os desenvolvedores devem compreender profundamente o código gerado por agentes de codificação para evitar dívida cognitiva e permanecer participantes ativos no processo criativo.

media r/LocalLLaMA · há 6 h

OpenLumara agora conecta qualquer UI a modelos locais via endpoint da OpenAI

O framework de código aberto OpenLumara agora suporta conexão com qualquer interface de usuário que possa se comunicar com um endpoint da OpenAI, como KoboldLite e OpenWebUI. Esta atualização permite que os usuários integrem o harness eficiente em tokens em seus fluxos de trabalho existentes sem alterar seu frontend preferido.

media r/LocalLLaMA · há 7 h

Alguém está usando LLMs locais para geração em larga escala de dados espaciais ou layout de cidades em software como o QGIS?

Um usuário está buscando recomendações de modelos de linguagem locais capazes de gerar dados estruturais em larga escala, como layouts inteiros de cidades, redes rodoviárias e sistemas de grade complexos.

blog Simon Willison · há 7 h

llm-coding-agent 0.1a0

Simon Willison lançou o llm-coding-agent 0.1a0, um experimento inicial na construção de um agente de codificação simples usando sua biblioteca LLM como estrutura de agente. O projeto foi gerado solicitando ao Claude Code que escrevesse uma especificação e implementasse a ferramenta usando TDD vermelho/verde.

media r/LocalLLaMA · há 7 h

Dica: use este PR do llama.cpp para melhorar o PP no Intel ARC

Um pull request da comunidade para o llama.cpp melhora significativamente a velocidade de processamento de prompts para usuários do Intel ARC, beneficiando especificamente hardware como o B580. O contribuidor otimizou o código com assistência do Claude para acelerar o manuseio do contexto.

media r/LocalLLaMA · há 7 h

Pesquisadores constroem verme de IA autorreplicante que opera inteiramente com modelos locais de pesos abertos

Um novo artigo do Arxiv detalha a criação de um verme de IA autorreplicante que funciona inteiramente usando modelos locais de pesos abertos. Este desenvolvimento destaca o potencial de agentes de IA autônomos para operar sem dependências externas.

media r/LocalLLaMA · há 7 h

Em direção a uma melhor geração de kernels HIP para GPUs AMD: Dados sintéticos, busca multiagente e aprendizado por reforço

Este artigo do blog Scaling Intelligence da Stanford discute métodos para melhorar a geração de kernels HIP para GPUs AMD usando dados sintéticos, busca multiagente e aprendizado por reforço.

lab ByteDance Seed (HF) · há 8 h

ByteDance-Seed/PAR: Checkpoints de Modelagem Autoregressiva de Proteínas

Este repositório fornece checkpoints do modelo para a Modelagem Autoregressiva de Proteínas por meio de Geração de Estrutura Multiescala, que foi aceita como apresentação oral no ICML 2026.

lab Claude Code Releases · há 8 h

Notas de lançamento do Claude Code v2.1.199

A atualização do Claude Code v2.1.199 aborda inúmeros problemas de estabilidade e usabilidade, incluindo correções para erros de certificados SSL, tratamento de respostas em streaming e gerenciamento de agentes em segundo plano.

lab Anthropic News · há 8 h

Anthropic detalha salvaguardas cibernéticas do Fable 5 e framework de jailbreak

A Anthropic reimplantou o Claude Fable 5 globalmente e publicou informações detalhadas sobre seus classificadores de segurança cibernética e um framework proposto de severidade de jailbreak de IA. A empresa visa estabelecer terminologia consistente para discutir riscos de jailbreak com governos, enquanto convida a comunidade mais ampla a fornecer feedback.

media r/LocalLLaMA · há 8 h

R9700 duplo: Melhor fórmula para Qwen3.6 27B?

Um usuário investiga a otimização do modelo Qwen3.6-27B em uma configuração com duas GPUs AMD Radeon R9700 usando llama.cpp, comparando o desempenho entre os backends Vulkan e ROCm.

media r/LocalLLaMA · há 9 h

Kernels WebGPU para Gemma 4 alcançam 255 tok/s

Xenova lançou kernels WebGPU para o Gemma 4, alcançando uma performance de 255 tokens por segundo. Esta otimização permite que modelos densos rodem a velocidades superiores a 100 tok/s em navegadores web.

blog Simon Willison · há 9 h

Usando DSPy para avaliar e melhorar os prompts do sistema SQL do Agente Datasette

Simon Willison utilizou o Claude Code com o modelo Fable 5 para automatizar a avaliação e otimização dos prompts do sistema para o Agente Datasette, focando especificamente em seu recurso de execução de consultas SQL apenas para leitura. O processo envolveu instalar a última versão alpha do Datasette e DSPy para identificar fraquezas na forma como o agente lida com informações de esquema.

media r/LocalLLaMA · há 9 h

Pioneiro de IA da Nvidia rejeita AGI e compara OpenAI e Anthropic à AOL

Uma figura proeminente da Nvidia afirmou que não acredita em Inteligência Geral Artificial (AGI) e argumenta que o foco da indústria deve mudar para modelos personalizados de código aberto para empresas.

media r/LocalLLaMA · há 9 h

Benchmarks locais com uma RTX 3090 - Qwen3.6 27b vs Ornith

Um usuário comparou Qwen3.6 27b, Gemma4 26B A4B QAT e Ornith1.0 35B MoE usando o framework inspect-ai em uma RTX 3090 para avaliar o desempenho de modelos locais. Os testes revelaram resultados mistos nos benchmarks de conhecimento geral, fundamentação e codificação, com Qwen3.6 geralmente liderando nas pontuações, enquanto Ornith mostrou pontos fortes em áreas específicas como DROP.

media r/LocalLLaMA · há 10 h

Usuário estende Gemma 4 31B para um modelo de 44B com 88 camadas

Um usuário do Reddit estendeu o modelo Google Gemma 4 31B, que tem 60 camadas, para uma versão maior de 44B parâmetros contendo 88 camadas. Esta modificação foi realizada porque a Google não lançou uma versão densa maior do modelo para uso no Lyzr Architect.