Los investigadores proponen TIGRAG (Token-Induced GraphRAG), un marco que utiliza estadísticas de coocurrencia de tokens para construir grafos de conocimiento escalables para la generación aumentada por recuperación eficiente. Este enfoque aborda las limitaciones del RAG estándar en el razonamiento multi-paso al evitar costosos pipelines de extracción basados en LLM.

TIGRAG construye grafos utilizando estadísticas de coocurrencia con ventana deslizante, permitiendo una construcción de grafos escalable sin pasos de extracción complejos. El sistema combina la expansión semántica basada en grafos y el reordenamiento neuronal para recuperar evidencia interconectada para el razonamiento multi-paso. Introduce una estrategia de recuperación iterativa impulsada por entidades que expande progresivamente las consultas utilizando entidades puente de contextos previamente recuperados.

Los resultados experimentales en tres benchmarks de Preguntas y Respuestas multi-paso muestran que TIGRAG supera consistentemente a los métodos de recuperación densa y RAG basado en grafos tanto en tareas de recuperación como posteriores, mientras reduce el tiempo de indexación, la latencia de inferencia y el tamaño del prompt.