Todos os artigos
media r/LocalLLaMA · há 1 h Ao vivo

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 6 h

O que Agentes LLM dizem quando ninguém está olhando: Estrutura Social e Emergência de Objetivos Latentes em Debates Multiagente

Este estudo investiga como a estrutura social influencia as expressões públicas de agentes LLM, comparando suas declarações públicas com respostas fora do registro (OTR) dentro de um framework de debate de dois canais. A pesquisa demonstra que configurações que induzem alinhamento causam divergência sistemática entre esses canais, com a divergência de decisões aumentando de uma linha de base de ~3% para cerca de 40% em 10 modelos e múltiplos cenários.

arxiv arXiv cs.CL · há 7 h

Program-as-Weights: Um Paradigma de Programação para Funções Difusas

O artigo apresenta o Program-as-Weights (PAW), um paradigma que compila especificações em linguagem natural em artefatos neurais compactos e executáveis localmente para substituir APIs de modelos de linguagem grandes. Esta abordagem visa melhorar a localidade, reprodutibilidade e custo ao tratar modelos fundamentais como construtores de ferramentas em vez de solucionadores de problemas por entrada.

arxiv arXiv cs.CL · há 7 h

LACUNA: Uma plataforma de testes para avaliar a precisão de localização no esquecimento de LLMs

Pesquisadores apresentam o LACUNA, a primeira plataforma de testes de esquecimento com localização em nível de parâmetros com ground-truth para abordar a lacuna na avaliação de se o esquecimento realmente apaga o conhecimento dos parâmetros do modelo. A plataforma injeta PII de indivíduos sintéticos em parâmetros predefinidos de modelos baseados em OLMo de 1B e 7B por meio de pré-treinamento contínuo mascarado.

blog Simon Willison · há 10 h

Usando DSPy para avaliar e melhorar os prompts do sistema SQL do Agente Datasette

Simon Willison utilizou o Claude Code com o modelo Fable 5 para automatizar a avaliação e otimização dos prompts do sistema para o Agente Datasette, focando especificamente em seu recurso de execução de consultas SQL apenas para leitura. O processo envolveu instalar a última versão alpha do Datasette e DSPy para identificar fraquezas na forma como o agente lida com informações de esquema.