Simon Willison utilizó Claude Code con el modelo Fable 5 para automatizar la evaluación y optimización de los prompts del sistema para el Agente Datasette, enfocándose específicamente en su función de ejecución de consultas SQL solo de lectura. El proceso implicó instalar la última versión alpha de Datasette y DSPy para identificar debilidades en cómo el agente maneja la información del esquema.
- La tarea de investigación automatizada empleó los modelos GPT 4.1 mini y nano para probar variaciones de prompts.
- El análisis reveló que excluir los nombres de las columnas de los listados del esquema provocaba adivinación de nombres de columnas y bucles de reintento por errores.
- Un hallazgo clave fue que el consejo de no llamar a describe_table cuando la información está disponible llevó a suposiciones incorrectas como page_count o o.order_id.
- La solución propuesta implica incluir los nombres de las columnas directamente en el listado del esquema del prompt o suavizar la restricción sobre las llamadas a la descripción de la tabla.
Este enfoque demuestra cómo los agentes automatizados pueden identificar y resolver sistemáticamente modos de fallo específicos en los prompts del sistema de LLM, mejorando la fiabilidad para tareas de consulta de datos.