Исследователи представляют KG2Cypher, ориентированный на данные конвейер, предназначенный для создания корпоративных систем преобразования текста в Cypher на основе существующих графов знаний. Система генерирует исполняемые запросы Cypher из фактов графа и использует большие языковые модели (LLM) для создания соответствующих вопросов на естественном языке.

  • KG2Cypher строит исполняемые запросы Cypher на основе наблюдаемых фактов графа и использует LLM для генерации связанных вопросов на естественном языке.
  • Пары текст-Cypher проверяются с помощью судьи на базе LLM и валидации человеком, затем преобразуются в данные для SFT с учетом кандидатов.
  • Обученный генератор использует условное по классам схематическое подталкивание (schema prompting), извлечение сущностей и инференс на основе LoRA.
  • В корейских корпоративных условиях SFT с LoRA улучшила F1 по результату выполнения с 0.806 до 0.950 для запросов программ вещания и с 0.70 до 0.92 для корпоративных запросов.
  • Система достигла точного совпадения на уровне 95,2%, скорости выполнения 99,9% и F1 по результату выполнения 0,964 в настройке из 11 классов.

Этот подход решает проблему высокой стоимости создания интерфейсов на естественном языке для частных корпоративных графов за счет использования существующих структур данных для повышения точности генерации запросов.