Simon Willison은 Claude Code와 Fable 5 모델을 사용하여 Datasette Agent의 시스템 프롬프트 평가 및 최적화를 자동화했습니다. 이는 특히 읽기 전용 SQL 쿼리 실행 기능에 초점을 맞추고 있습니다. 이 과정에는 최신 Datasette alpha 버전과 DSPy 설치가 포함되었으며, 에이전트가 스키마 정보를 처리하는 방식의 약점을 파악하는 것을 목표로 합니다.

  • 자동화된 연구 작업에서는 GPT 4.1 mini 및 nano 모델을 사용하여 프롬프트 변형을 테스트했습니다.
  • 분석 결과, 스키마 목록에서 열 이름을 제외하면 열 이름 추측과 오류 재시도 루프가 발생한다는 것이 밝혀졌습니다.
  • 주요 발견 사항 중 하나는 정보가 사용 가능한 경우 describe_table 호출을 피하라는 조언이 page_count 또는 o.order_id와 같은 잘못된 추측을 초래한다는 것이었습니다.
  • 제안된 해결책은 프롬프트의 스키마 목록에 열 이름을 직접 포함하거나 테이블 설명 호출에 대한 제한을 완화하는 것입니다.

이 접근 방식은 자동화된 에이전트가 LLM 시스템 프롬프트에서 특정 실패 모드를 체계적으로 식별하고 해결하여 데이터 쿼리 작업의 신뢰성을 향상시키는 방법을 보여줍니다.