Локальный пайплайн NL-to-SQL с использованием Qwen3 4B и детерминированного планирования
Разработчик реализовал полностью локальную систему генерации фильтров по естественному языку на оборудовании без GPU. Решение использует модель Qwen3 4B Instruct, работающую через llama.cpp с инференсом только на CPU. Вместо прямой генерации SQL-запросов модель фокусируется на семантическом намерении и выборе структурированных фильтров. Детерминированный планировщик запросов затем выполняет процессы генерации и оптимизации SQL. Пайплайн использует гибридный метод извлечения BM25 и эмбеддингов с применением FAISS для хранения векторов. Он извлекает четыре лучших совпадающих примера примерно из 800 вложенных семантических экземпляров для внедрения в промпт. Такой подход позволяет системе эффективно функционировать в условиях строгих ограничений по объему оперативной памяти и отсутствию доступа к интернету.