Todos os artigos
media r/LocalLLaMA · agora mesmo Ao vivo

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 6 h

Program-as-Weights: Um Paradigma de Programação para Funções Difusas

O artigo apresenta o Program-as-Weights (PAW), um paradigma que compila especificações em linguagem natural em artefatos neurais compactos e executáveis localmente para substituir APIs de modelos de linguagem grandes. Esta abordagem visa melhorar a localidade, reprodutibilidade e custo ao tratar modelos fundamentais como construtores de ferramentas em vez de solucionadores de problemas por entrada.

arxiv arXiv cs.CL · há 6 h

LACUNA: Uma plataforma de testes para avaliar a precisão de localização no esquecimento de LLMs

Pesquisadores apresentam o LACUNA, a primeira plataforma de testes de esquecimento com localização em nível de parâmetros com ground-truth para abordar a lacuna na avaliação de se o esquecimento realmente apaga o conhecimento dos parâmetros do modelo. A plataforma injeta PII de indivíduos sintéticos em parâmetros predefinidos de modelos baseados em OLMo de 1B e 7B por meio de pré-treinamento contínuo mascarado.

blog Simon Willison · há 9 h

Usando DSPy para avaliar e melhorar os prompts do sistema SQL do Agente Datasette

Simon Willison utilizou o Claude Code com o modelo Fable 5 para automatizar a avaliação e otimização dos prompts do sistema para o Agente Datasette, focando especificamente em seu recurso de execução de consultas SQL apenas para leitura. O processo envolveu instalar a última versão alpha do Datasette e DSPy para identificar fraquezas na forma como o agente lida com informações de esquema.