Todos os artigos
media r/LocalLLaMA · há 3 h

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

blog Simon Willison · há 11 h

Usando DSPy para avaliar e melhorar os prompts do sistema SQL do Agente Datasette

Simon Willison utilizou o Claude Code com o modelo Fable 5 para automatizar a avaliação e otimização dos prompts do sistema para o Agente Datasette, focando especificamente em seu recurso de execução de consultas SQL apenas para leitura. O processo envolveu instalar a última versão alpha do Datasette e DSPy para identificar fraquezas na forma como o agente lida com informações de esquema.

media Hugging Face Forums · há 12 h

Saturação de evidências k*: a profundidade de recuperação deve ser calibrada, não adivinhada

Um benchmark piloto sobre profundidade de evidências para chamadas LLM argumenta que a calibração deve se estender além da correção factual para incluir contaminação epistêmica e vazamento de enquadramento. O estudo define 'k*' como o ponto de saturação de evidências onde a confiabilidade é maximizada, distinguindo-o das métricas padrão top-k do recuperador ou de densidade de estado.

media Hugging Face Forums · há 13 h

Benchmarking de Solo e MoA em múltiplas tarefas

O artigo apresenta resultados de benchmark comparando modelos individuais contra configurações de Mixture-of-Agents (MoA) em seis tarefas: Bug, Tool, Arch, Clinical, DLQ e uma média geral. O framework de avaliação utilizou Hermes Agent v0.18, com pontuações geradas por ChatGPT 5.5 e Claude opus 4.8 com base em uma rubrica que pondera Corretude, Completude, Profundidade, Acionabilidade, Clareza e Confiança.

media r/LocalLLaMA · há 15 h

Análise de 2,3k aplicativos de IA local revela 82 categorias e casos de uso diversos

Uma análise da Mac App Store identificou 2.259 aplicativos de IA local entre mais de 20.000 entradas raspadas, destacando um ecossistema crescente de ferramentas de nicho que empacotam modelos com fluxos de trabalho específicos. A pesquisa abrange 82 categorias distintas, desde tarefas comuns como transcrição e OCR até funções especializadas como estilismo de guarda-roupa e assistência à saúde de pets.