SQLConductor: Обучение политике поиска для пошаговой оркестрации Text-to-SQL
Авторы предлагают SQLConductor, пошаговую обучающуюся систему оркестрации Text-to-SQL, которая устраняет ограничения фиксированных конвейеров и статических методов «план-затем-выполнение». Эта система формулирует подзадачи как специализированные действия и обучает модель политики выбирать следующее действие на основе промежуточных артефактов и обратной связи. Для обучения этой политики фреймворк вводит обучение политике поиска (Search-to-Policy Learning), которое использует поиск по дереву Монте-Карло для исследования кандидатов рабочих процессов и оценку стабильности для выявления надежной обучающей выборки. Модель политики обучается с помощью взвешенного стабилизацией контролируемого тонкого дообучения (Stability-weighted Supervised Fine-tuning) для приоритизации высококачественных паттернов оркестрации и дополнительно улучшается с помощью обучения с подкреплением по программе (Curriculum Reinforcement Learning). Этот подход преобразует оффлайн-поиск рабочих процессов в развертываемую политику для пошаговой оркестрации во время вывода. Эксперименты на наборах данных BIRD-Dev и вне распределения показывают, что SQLConductor достигает точности выполнения 73,2%, превосходя предыдущие методы с сопоставимыми или более крупными базовыми моделями. Результаты демонстрируют превосходную точность выполнения и сильную обобщающую способность при координации замороженных более крупных моделей действий.