Todos os artigos
media r/LocalLLaMA · há 1 h Ao vivo

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 7 h

LACUNA: Uma plataforma de testes para avaliar a precisão de localização no esquecimento de LLMs

Pesquisadores apresentam o LACUNA, a primeira plataforma de testes de esquecimento com localização em nível de parâmetros com ground-truth para abordar a lacuna na avaliação de se o esquecimento realmente apaga o conhecimento dos parâmetros do modelo. A plataforma injeta PII de indivíduos sintéticos em parâmetros predefinidos de modelos baseados em OLMo de 1B e 7B por meio de pré-treinamento contínuo mascarado.

blog Simon Willison · há 9 h

Usando DSPy para avaliar e melhorar os prompts do sistema SQL do Agente Datasette

Simon Willison utilizou o Claude Code com o modelo Fable 5 para automatizar a avaliação e otimização dos prompts do sistema para o Agente Datasette, focando especificamente em seu recurso de execução de consultas SQL apenas para leitura. O processo envolveu instalar a última versão alpha do Datasette e DSPy para identificar fraquezas na forma como o agente lida com informações de esquema.

media Hugging Face Forums · há 11 h

Saturação de evidências k*: a profundidade de recuperação deve ser calibrada, não adivinhada

Um benchmark piloto sobre profundidade de evidências para chamadas LLM argumenta que a calibração deve se estender além da correção factual para incluir contaminação epistêmica e vazamento de enquadramento. O estudo define 'k*' como o ponto de saturação de evidências onde a confiabilidade é maximizada, distinguindo-o das métricas padrão top-k do recuperador ou de densidade de estado.