Simon Willison memanfaatkan Claude Code dengan model Fable 5 untuk mengotomatisasi evaluasi dan optimisasi prompt sistem untuk Agen Datasette, khususnya menargetkan fitur eksekusi kueri SQL hanya-baca. Proses ini melibatkan pemasangan alpha terbaru Datasette dan DSPy untuk mengidentifikasi kelemahan dalam cara agen menangani informasi skema.

  • Tugas penelitian otomatis menggunakan model GPT 4.1 mini dan nano untuk menguji variasi prompt.
  • Analisis mengungkapkan bahwa mengecualikan nama kolom dari daftar skema menyebabkan tebakan nama kolom dan loop coba ulang kesalahan.
  • Temuan kunci adalah saran untuk tidak memanggil describe_table ketika informasi tersedia mengarah pada tebakan yang salah seperti page_count atau o.order_id.
  • Solusi yang diusulkan melibatkan penyertaan nama kolom secara langsung dalam daftar skema prompt atau melonggarkan pembatasan pada panggilan deskripsi tabel.

Pendekatan ini menunjukkan bagaimana agen otomatis dapat secara sistematis mengidentifikasi dan menyelesaikan mode kegagalan spesifik dalam prompt sistem LLM, meningkatkan keandalan untuk tugas kueri data.