研究人员开发了 Graph-PRefLexOR,这是一个图原生推理模型家族,使用 Group Relative Policy Optimization (GRPO) 进行微调,将推理组织为机制探索和假设合成的显式阶段。这种设计将神经语言生成与符号关系结构联系起来,使得因果连接能够被构建、检查和重用。
- 在材料科学和力学文献的100个开放式问题上,Graph-PRefLexOR 相比相应的基线模型取得了40-65%的提升,其中推理可追溯性的提升最大。
- 嵌入分析显示,与基线相比,语义探索范围更广,语义多样性约为2-3倍。
- 语义回溯和逐层隐藏状态分析进一步表明,结构化推理与最终答案之间的对齐更强。
- 测试时的图扩展揭示,额外的计算量主要在有限的语义空间内增加长程概念重组,而不仅仅是扩大语义覆盖范围。
这些结果确立了图原生强化学习作为通向可解释AI系统的途径,用于材料设计和其他科学应用中的科学假设生成。