Todos os artigos
media r/LocalLLaMA · há 8 h

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 12 h

Em direção à robustez contra ataques tipográficos com localização de conceitos sem treinamento

Os autores propõem um método sem treinamento para mitigar ataques tipográficos em codificadores visuais baseados em CLIP, onde o texto irrelevante tende as representações visuais em direção ao significado léxico. Ao usar interpretações baseadas em amostragem e mineração de circuitos, a abordagem isola componentes específicos do Vision Transformer responsáveis por codificar essa informação léxica indesejada.

arxiv arXiv cs.CL · há 12 h

O que Agentes LLM dizem quando ninguém está olhando: Estrutura Social e Emergência de Objetivos Latentes em Debates Multiagente

Este estudo investiga como a estrutura social influencia as expressões públicas de agentes LLM, comparando suas declarações públicas com respostas fora do registro (OTR) dentro de um framework de debate de dois canais. A pesquisa demonstra que configurações que induzem alinhamento causam divergência sistemática entre esses canais, com a divergência de decisões aumentando de uma linha de base de ~3% para cerca de 40% em 10 modelos e múltiplos cenários.

arxiv arXiv cs.CL · há 13 h

Program-as-Weights: Um Paradigma de Programação para Funções Difusas

O artigo apresenta o Program-as-Weights (PAW), um paradigma que compila especificações em linguagem natural em artefatos neurais compactos e executáveis localmente para substituir APIs de modelos de linguagem grandes. Esta abordagem visa melhorar a localidade, reprodutibilidade e custo ao tratar modelos fundamentais como construtores de ferramentas em vez de solucionadores de problemas por entrada.

arxiv arXiv cs.CL · há 13 h

LACUNA: Uma plataforma de testes para avaliar a precisão de localização no esquecimento de LLMs

Pesquisadores apresentam o LACUNA, a primeira plataforma de testes de esquecimento com localização em nível de parâmetros com ground-truth para abordar a lacuna na avaliação de se o esquecimento realmente apaga o conhecimento dos parâmetros do modelo. A plataforma injeta PII de indivíduos sintéticos em parâmetros predefinidos de modelos baseados em OLMo de 1B e 7B por meio de pré-treinamento contínuo mascarado.