Simon Willison a utilisé Claude Code avec le modèle Fable 5 pour automatiser l'évaluation et l'optimisation des invites système de l'agent Datasette, en ciblant spécifiquement sa fonctionnalité d'exécution de requêtes SQL en lecture seule. Le processus impliquait l'installation de la dernière version alpha de Datasette et de DSPy afin d'identifier les faiblesses dans la manière dont l'agent gère les informations de schéma.

  • La tâche de recherche automatisée a utilisé les modèles GPT 4.1 mini et nano pour tester des variations d'invite.
  • L'analyse a révélé que l'exclusion des noms de colonnes des listes de schéma entraînait une devinette des noms de colonnes et des boucles de réessai en cas d'erreur.
  • Une découverte clé était que le conseil d'éviter d'appeler describe_table lorsque l'information est disponible conduisait à des devinettes incorrectes comme page_count ou o.order_id.
  • La solution proposée consiste à inclure directement les noms de colonnes dans la liste du schéma de l'invite ou à assouplir la restriction sur les appels de description de table.

Cette approche démontre comment les agents automatisés peuvent identifier et résoudre systématiquement des modes d'échec spécifiques dans les invites système des LLM, améliorant ainsi la fiabilité pour les tâches de requête de données.