Graph-PRefLexOR usa RL nativo de grafos para melhorar a geração de hipóteses rastreáveis

Pesquisadores desenvolveram o Graph-PRefLexOR, uma família de modelos de raciocínio nativos de grafos ajustados com Group Relative Policy Optimization (GRPO) para organizar o raciocínio em fases explícitas para exploração do mecanismo e síntese de hipóteses. Este design vincula a geração de linguagem neural com a estrutura relacional simbólica, permitindo que conexões causais sejam construídas, inspecionadas e reutilizadas.

Em 100 perguntas abertas da literatura de ciência dos materiais e mecânica, o Graph-PRefLexOR alcança melhorias de 40-65% em relação aos modelos base correspondentes, com os maiores ganhos na rastreabilidade do raciocínio.
Análises de incorporação mostram exploração semântica mais ampla e aproximadamente 2-3 vezes maior diversidade semântica do que as linhas de base.
Análises de backtracking semântico e estados ocultos por camada mostram ainda uma alinhamento mais forte entre o raciocínio estruturado e as respostas finais.
A expansão do grafo em tempo de teste revela que o compute adicional aumenta principalmente a recombinação conceitual de longo alcance dentro de um espaço semântico limitado, em vez de simplesmente expandir a cobertura semântica.

Esses resultados estabelecem o aprendizado por reforço nativo de grafos como uma via para sistemas de IA interpretáveis para geração de hipóteses científicas no design de materiais e outras aplicações científicas.