शोधकर्ताओं ने Graph-PRefLexOR विकसित किया, जो Group Relative Policy Optimization (GRPO) के साथ फाइन-ट्यून किए गए ग्राफ-नेटिव रीजनिंग मॉडलों का एक परिवार है, ताकि तंत्र अन्वेषण और परिकल्पना संश्लेषण के लिए स्पष्ट चरणों में तर्क को व्यवस्थित किया जा सके। यह डिज़ाइन न्यूरल भाषा जनरेशन को प्रतीकात्मक संबंधी संरचना से जोड़ता है, जिससे कारण संबंधों को निर्मित, निरीक्षित और पुनः उपयोग किया जा सकता है।
- सामग्री विज्ञान और यांत्रिकी साहित्य के 100 ओपन-एंडेड प्रश्नों पर, Graph-PRefLexOR संबंधित बेस मॉडलों की तुलना में 40-65% सुधार हासिल करता है, जिसमें तर्क की ट्रैसेबिलिटी में सबसे बड़ी वृद्धि होती है।
- एम्बेडिंग विश्लेषण बेलाइनों की तुलना में व्यापक अर्थीय अन्वेषण और लगभग 2-3 गुना अधिक अर्थीय विविधता दिखाते हैं।
- अर्थीय बैकट्रैकिंग और परत-वार हIDDEN-स्टेट विश्लेषण संरचित तर्क और अंतिम उत्तरों के बीच मजबूत एलाइनमेंट को और भी स्पष्ट करते हैं।
- टेस्ट-टाइम ग्राफ एक्सपेंशन दिखाता है कि अतिरिक्त कंप्यूट मुख्य रूप से एक सीमित अर्थीय स्थान के भीतर लंबी दूरी की अवधारणात्मक पुनर्संयोजन को बढ़ाता है, न कि केवल अर्थीय कवरेज का विस्तार।
ये परिणाम सामग्री डिज़ाइन और अन्य वैज्ञानिक अनुप्रयोगों में वैज्ञानिक परिकल्पना जनरेशन के लिए व्याख्या योग्य AI प्रणालियों की ओर एक मार्ग के रूप में ग्राफ-नेटिव रीइन्फोर्समेंट लर्निंग को स्थापित करते हैं।