Graph-PRefLexOR utilise le RL natif aux graphes pour améliorer la génération d'hypothèses traçables

Les chercheurs ont développé Graph-PRefLexOR, une famille de modèles de raisonnement natifs aux graphes affinés par Group Relative Policy Optimization (GRPO) afin d'organiser le raisonnement en phases explicites pour l'exploration des mécanismes et la synthèse d'hypothèses. Cette conception relie la génération de langage neuronal à la structure relationnelle symbolique, permettant la construction, l'inspection et la réutilisation des connexions causales.

Sur 100 questions ouvertes issues de la littérature en science des matériaux et en mécanique, Graph-PRefLexOR obtient des améliorations de 40 à 65 % par rapport aux modèles de base correspondants, avec les gains les plus importants dans la traçabilité du raisonnement.
Les analyses d'embedding montrent une exploration sémantique plus large et une diversité sémantique environ 2 à 3 fois supérieure aux lignes de base.
Le backtracking sémantique et les analyses des états cachés par couche montrent en outre un alignement plus fort entre le raisonnement structuré et les réponses finales.
L'expansion de graphe au moment du test révèle que le calcul supplémentaire augmente principalement la recombinaison conceptuelle à longue portée au sein d'un espace sémantique borné, plutôt que de simplement étendre la couverture sémantique.

Ces résultats établissent l'apprentissage par renforcement natif aux graphes comme une voie vers des systèmes d'IA interprétables pour la génération d'hypothèses scientifiques dans la conception de matériaux et d'autres applications scientifiques.