El artículo presenta SQLConductor, un marco de aprendizaje de orquestación paso a paso para Texto-a-SQL que formula subtareas como acciones especializadas y entrena un modelo de política para seleccionar la siguiente acción basándose en artefactos intermedios y retroalimentación.
- Utiliza Aprendizaje de Búsqueda-a-Política con Búsqueda en Árbol de Monte Carlo para explorar flujos de trabajo candidatos y estimación de estabilidad para identificar supervisión robusta.
- Entrena el modelo de política utilizando Ajuste Fino Supervisado Ponderado por Estabilidad para priorizar patrones de orquestación de alta calidad.
- Mejora la política a través de Aprendizaje por Refuerzo Curricular para transformar la búsqueda offline de flujos de trabajo en una política desplegable en tiempo de inferencia.
- Alcanza un 73.2% EX en BIRD-Dev con una política de orquestación compacta que coordina modelos de acción más grandes congelados, superando a métodos anteriores.
El enfoque permite una orquestación adaptativa a diversas demandas de consulta y demuestra una precisión de ejecución superior y una fuerte generalización en comparación con los sistemas existentes.