Los investigadores presentan KG2Cypher, un pipeline centrado en datos diseñado para construir sistemas empresariales de texto a Cypher a partir de Knowledge Graphs existentes. El sistema genera consultas Cypher ejecutables a partir de hechos del grafo y utiliza modelos de lenguaje grandes para crear preguntas correspondientes en lenguaje natural.
- KG2Cypher construye consultas Cypher ejecutables a partir de hechos observados del grafo y utiliza LLMs para generar preguntas asociadas en lenguaje natural.
- Los pares Texto-Cypher se validan mediante un juez LLM y validación humana, luego se convierten en datos SFT conscientes de candidatos.
- El generador entrenado utiliza prompting de esquema condicionado por clase, recuperación de entidades e inferencia basada en LoRA.
- En entornos empresariales coreanos, el SFT con LoRA mejoró la F1 de resultado de ejecución de 0.806 a 0.950 en consultas de programas de difusión y de 0.70 a 0.92 en consultas corporativas.
- El sistema logró una coincidencia exacta del 95.2%, una tasa de ejecución del 99.9% y una F1 de resultado de ejecución de 0.964 en un entorno de 11 clases.
Este enfoque aborda el alto costo de construir interfaces de lenguaje natural para grafos empresariales privados aprovechando estructuras de datos existentes para mejorar la precisión de la generación de consultas.