Todos os artigos
blog Simon Willison · há 6 h

Usando DSPy para avaliar e melhorar os prompts do sistema SQL do Agente Datasette

Simon Willison utilizou o Claude Code com o modelo Fable 5 para automatizar a avaliação e otimização dos prompts do sistema para o Agente Datasette, focando especificamente em seu recurso de execução de consultas SQL apenas para leitura. O processo envolveu instalar a última versão alpha do Datasette e DSPy para identificar fraquezas na forma como o agente lida com informações de esquema.

media Hugging Face Forums · há 8 h

Saturação de evidências k*: a profundidade de recuperação deve ser calibrada, não adivinhada

Um benchmark piloto sobre profundidade de evidências para chamadas LLM argumenta que a calibração deve se estender além da correção factual para incluir contaminação epistêmica e vazamento de enquadramento. O estudo define 'k*' como o ponto de saturação de evidências onde a confiabilidade é maximizada, distinguindo-o das métricas padrão top-k do recuperador ou de densidade de estado.

media Hugging Face Forums · há 9 h

Benchmarking de Solo e MoA em múltiplas tarefas

O artigo apresenta resultados de benchmark comparando modelos individuais contra configurações de Mixture-of-Agents (MoA) em seis tarefas: Bug, Tool, Arch, Clinical, DLQ e uma média geral. O framework de avaliação utilizou Hermes Agent v0.18, com pontuações geradas por ChatGPT 5.5 e Claude opus 4.8 com base em uma rubrica que pondera Corretude, Completude, Profundidade, Acionabilidade, Clareza e Confiança.