Todos os artigos
blog Simon Willison · há 4 h

Usando DSPy para avaliar e melhorar os prompts do sistema SQL do Agente Datasette

Simon Willison utilizou o Claude Code com o modelo Fable 5 para automatizar a avaliação e otimização dos prompts do sistema para o Agente Datasette, focando especificamente em seu recurso de execução de consultas SQL apenas para leitura. O processo envolveu instalar a última versão alpha do Datasette e DSPy para identificar fraquezas na forma como o agente lida com informações de esquema.

media Hugging Face Forums · há 6 h

Benchmarking de Solo e MoA em múltiplas tarefas

O artigo apresenta resultados de benchmark comparando modelos individuais contra configurações de Mixture-of-Agents (MoA) em seis tarefas: Bug, Tool, Arch, Clinical, DLQ e uma média geral. O framework de avaliação utilizou Hermes Agent v0.18, com pontuações geradas por ChatGPT 5.5 e Claude opus 4.8 com base em uma rubrica que pondera Corretude, Completude, Profundidade, Acionabilidade, Clareza e Confiança.

media r/LocalLLaMA · há 8 h

Análise de 2,3k aplicativos de IA local revela 82 categorias e casos de uso diversos

Uma análise da Mac App Store identificou 2.259 aplicativos de IA local entre mais de 20.000 entradas raspadas, destacando um ecossistema crescente de ferramentas de nicho que empacotam modelos com fluxos de trabalho específicos. A pesquisa abrange 82 categorias distintas, desde tarefas comuns como transcrição e OCR até funções especializadas como estilismo de guarda-roupa e assistência à saúde de pets.