Graph-PRefLexOR utiliza RL nativo de grafos para mejorar la generación de hipótesis rastreables

Los investigadores desarrollaron Graph-PRefLexOR, una familia de modelos de razonamiento nativos de grafos ajustados con Group Relative Policy Optimization (GRPO) para organizar el razonamiento en fases explícitas para la exploración del mecanismo y la síntesis de hipótesis. Este diseño vincula la generación de lenguaje neural con la estructura relacional simbólica, permitiendo construir, inspeccionar y reutilizar conexiones causales.

En 100 preguntas abiertas de literatura de ciencia de materiales y mecánica, Graph-PRefLexOR logra mejoras del 40-65% sobre los modelos base correspondientes, con las mayores ganancias en rastreabilidad del razonamiento.
Los análisis de incrustación muestran una exploración semántica más amplia y aproximadamente 2-3 veces mayor diversidad semántica que las líneas base.
Los análisis de retroceso semántico y estados ocultos por capa muestran además una alineación más fuerte entre el razonamiento estructurado y las respuestas finales.
La expansión del grafo en tiempo de prueba revela que el cómputo adicional aumenta principalmente la recombinación conceptual a largo alcance dentro de un espacio semántico acotado, en lugar de simplemente expandir la cobertura semántica.

Estos resultados establecen el aprendizaje por refuerzo nativo de grafos como una vía hacia sistemas de IA interpretables para la generación de hipótesis científicas en diseño de materiales y otras aplicaciones científicas.