Исследователи представляют KG2Cypher, ориентированный на данные конвейер, предназначенный для создания корпоративных систем преобразования текста в Cypher на основе существующих графов знаний. Система генерирует исполняемые запросы Cypher из фактов графа и использует большие языковые модели (LLM) для создания соответствующих вопросов на естественном языке.
- KG2Cypher строит исполняемые запросы Cypher на основе наблюдаемых фактов графа и использует LLM для генерации связанных вопросов на естественном языке.
- Пары текст-Cypher проверяются с помощью судьи на базе LLM и валидации человеком, затем преобразуются в данные для SFT с учетом кандидатов.
- Обученный генератор использует условное по классам схематическое подталкивание (schema prompting), извлечение сущностей и инференс на основе LoRA.
- В корейских корпоративных условиях SFT с LoRA улучшила F1 по результату выполнения с 0.806 до 0.950 для запросов программ вещания и с 0.70 до 0.92 для корпоративных запросов.
- Система достигла точного совпадения на уровне 95,2%, скорости выполнения 99,9% и F1 по результату выполнения 0,964 в настройке из 11 классов.
Этот подход решает проблему высокой стоимости создания интерфейсов на естественном языке для частных корпоративных графов за счет использования существующих структур данных для повышения точности генерации запросов.