Simon Willison utilizou o Claude Code com o modelo Fable 5 para automatizar a avaliação e otimização dos prompts do sistema para o Agente Datasette, focando especificamente em seu recurso de execução de consultas SQL apenas para leitura. O processo envolveu instalar a última versão alpha do Datasette e DSPy para identificar fraquezas na forma como o agente lida com informações de esquema.

  • A tarefa de pesquisa automatizada empregou os modelos GPT 4.1 mini e nano para testar variações de prompts.
  • A análise revelou que excluir os nomes das colunas das listagens do esquema causava adivinhação de nomes de colunas e loops de nova tentativa de erro.
  • Uma descoberta chave foi que o conselho contra chamar describe_table quando as informações estão disponíveis levou a suposições incorretas como page_count ou o.order_id.
  • A solução proposta envolve incluir os nomes das colunas diretamente na listagem do esquema do prompt ou suavizar a restrição sobre chamadas de descrição de tabela.

Esta abordagem demonstra como agentes automatizados podem identificar e resolver sistematicamente modos de falha específicos em prompts do sistema de LLM, melhorando a confiabilidade para tarefas de consulta de dados.