DSPyを使用してDatasette AgentのSQLシステムプロンプトを評価・改善する

Simon WillisonはClaude CodeとFable 5モデルを使用して、Datasette Agentのシステムプロンプトの評価と最適化を自動化しました。これは特に読み取り専用SQLクエリ実行機能に焦点を当てています。このプロセスには、最新のDatasette alpha版とDSPyのインストールが含まれ、エージェントがスキーマ情報をどのように処理するかにおける弱点の特定を目指しました。

自動化された調査タスクでは、GPT 4.1 miniおよびnanoモデルを使用してプロンプトのバリエーションをテストしました。
分析の結果、スキーマリストから列名を除外すると、列名の推測とエラー再試行ループが発生することが明らかになりました。
重要な発見として、情報が利用可能な場合にdescribe_tableの呼び出しを避けるという助言が、page_countやo.order_idのような誤った推測を引き起こすことが判明しました。
提案された解決策は、プロンプトのスキーマリストに列名を直接含めるか、テーブル記述呼び出しに対する制限を緩和することです。

このアプローチは、自動化されたエージェントがLLMシステムプロンプトにおける特定のエラーモードを体系的に特定し解決する方法を示しており、データクエリタスクの信頼性を向上させます。