SQLConductor: Aprendizaje de Búsqueda a Política para Orquestación Paso a Paso de Texto a SQL

Los autores proponen SQLConductor, un marco de aprendizaje de orquestación paso a paso para Texto-a-SQL que aborda las limitaciones de los pipelines fijos y los métodos estáticos de planificar-entonces-ejecutar. Este sistema formula subtareas como acciones especializadas y entrena un modelo de política para seleccionar la siguiente acción basándose en artefactos intermedios y retroalimentación. Para aprender esta política, el marco introduce Aprendizaje de Búsqueda a Política, que utiliza Monte Carlo Tree Search para explorar flujos de trabajo candidatos y estimación de estabilidad para identificar supervisión robusta. El modelo de política se entrena utilizando Supervised Fine-tuning ponderado por Estabilidad para priorizar patrones de orquestación de alta calidad y se mejora aún más mediante Curriculum Reinforcement Learning. Este enfoque transforma la búsqueda offline de flujos de trabajo en una política implementable para orquestación paso a paso durante la inferencia. Los experimentos en BIRD-Dev y conjuntos de datos fuera de distribución muestran que SQLConductor alcanza una precisión de ejecución del 73.2%, superando a métodos anteriores con backbones comparables o más grandes. Los resultados demuestran una precisión de ejecución superior y una fuerte generalización mientras coordinan modelos de acción más grandes congelados.