Graph-PRefLexORはグラフネイティブなRLを用いて、追跡可能な仮説生成を改善する

研究者らは、Group Relative Policy Optimization (GRPO) でファインチューニングされたグラフネイティブ推論モデルのファミリーである Graph-PRefLexOR を開発し、メカニズム探索と仮説合成のために明示的なフェーズへ推論を整理した。この設計はニューラル言語生成と記号的関係構造を結びつけ、因果関係を構築・検査・再利用可能にする。

材料科学および力学文献からの100のオープンエンドな質問において、Graph-PRefLexOR は対応するベースモデルに対して40-65%の改善を達成し、推論の追跡可能性において最大の向上が見られた。
埋め込み解析は、ベースラインと比較してより広範な意味探索と約2-3倍の大きな意味的多様性を示している。
意味バックトラックおよび層ごとの隠れ状態の解析は、構造化された推論と最終的な答えとの間のより強い整合性をさらに示している。
テスト時のグラフ展開により、追加の計算リソースは主に有界な意味空間内での長距離概念的再結合を増加させ、単に意味カバレッジを展開するのではないことが明らかになった。

これらの結果は、材料設計およびその他の科学的应用における科学的仮説生成のための解釈可能なAIシステムへの道筋として、グラフネイティブ強化学習を確立した。