Graph-PRefLexOR 使用图原生强化学习改进可追溯的假设生成

研究人员开发了 Graph-PRefLexOR，这是一个图原生推理模型家族，使用 Group Relative Policy Optimization (GRPO) 进行微调，将推理组织为机制探索和假设合成的显式阶段。这种设计将神经语言生成与符号关系结构联系起来，使得因果连接能够被构建、检查和重用。

在材料科学和力学文献的100个开放式问题上，Graph-PRefLexOR 相比相应的基线模型取得了40-65%的提升，其中推理可追溯性的提升最大。
嵌入分析显示，与基线相比，语义探索范围更广，语义多样性约为2-3倍。
语义回溯和逐层隐藏状态分析进一步表明，结构化推理与最终答案之间的对齐更强。
测试时的图扩展揭示，额外的计算量主要在有限的语义空间内增加长程概念重组，而不仅仅是扩大语义覆盖范围。

这些结果确立了图原生强化学习作为通向可解释AI系统的途径，用于材料设计和其他科学应用中的科学假设生成。