Simon Willison 利用 Claude Code 和 Fable 5 模型,自动化了 Datasette Agent 系统提示的评估和优化过程,特别针对其只读 SQL 查询执行功能。该过程涉及安装最新的 Datasette alpha 版本和 DSPy,以识别代理在处理模式信息方面的弱点。

  • 自动化研究任务使用了 GPT 4.1 mini 和 nano 模型来测试提示的变体。
  • 分析显示,从模式列表中排除列名会导致列名猜测和错误重试循环。
  • 一个关键发现是,当有可用信息时建议不调用 describe_table 导致了错误的猜测,如 page_count 或 o.order_id。
  • 提出的解决方案包括直接在提示的模式列表中包括列名,或者放宽对表描述调用的限制。

这种方法展示了自动化代理如何系统地识别和解决 LLM 系统提示中的特定故障模式,从而提高数据查询任务的可靠性。