В статье представлен SQLConductor, фреймворк обучения пошаговой оркестровке для Text-to-SQL, который формулирует подзадачи как специализированные действия и обучает модель политики выбирать следующее действие на основе промежуточных артефактов и обратной связи.

  • Использует обучение от поиска к политике с поиском по дереву Монте-Карло для исследования кандидатов на рабочие процессы и оценку стабильности для выявления надежной супервизии.
  • Обучает модель политики с помощью стабилизированного дообучения с учителем (Stability-weighted Supervised Fine-tuning), чтобы приоритизировать высококачественные паттерны оркестровки.
  • Улучшает политику через Curriculum Reinforcement Learning, преобразуя оффлайн-поиск рабочих процессов в развертываемую политику во время вывода (inference-time policy).
  • Достигает 73.2% EX на BIRD-Dev с компактной политикой оркестровки, координирующей замороженные более крупные модели действий, превосходя предыдущие методы.

Подход позволяет адаптивную оркестровку для разнообразных запросов и демонстрирует превосходную точность выполнения и сильную обобщающую способность по сравнению с существующими системами.