SQLConductor: Обучение от поиска к политике для пошаговой оркестровки Text-to-SQL

В статье представлен SQLConductor, фреймворк обучения пошаговой оркестровке для Text-to-SQL, который формулирует подзадачи как специализированные действия и обучает модель политики выбирать следующее действие на основе промежуточных артефактов и обратной связи.

Использует обучение от поиска к политике с поиском по дереву Монте-Карло для исследования кандидатов на рабочие процессы и оценку стабильности для выявления надежной супервизии.
Обучает модель политики с помощью стабилизированного дообучения с учителем (Stability-weighted Supervised Fine-tuning), чтобы приоритизировать высококачественные паттерны оркестровки.
Улучшает политику через Curriculum Reinforcement Learning, преобразуя оффлайн-поиск рабочих процессов в развертываемую политику во время вывода (inference-time policy).
Достигает 73.2% EX на BIRD-Dev с компактной политикой оркестровки, координирующей замороженные более крупные модели действий, превосходя предыдущие методы.

Подход позволяет адаптивную оркестровку для разнообразных запросов и демонстрирует превосходную точность выполнения и сильную обобщающую способность по сравнению с существующими системами.