Graph-PRefLexOR ग्राफ-नेटिव RL का उपयोग करके ट्रैसेबल परिकल्पना जनरेशन को बेहतर बनाता है

शोधकर्ताओं ने Graph-PRefLexOR विकसित किया, जो Group Relative Policy Optimization (GRPO) के साथ फाइन-ट्यून किए गए ग्राफ-नेटिव रीजनिंग मॉडलों का एक परिवार है, ताकि तंत्र अन्वेषण और परिकल्पना संश्लेषण के लिए स्पष्ट चरणों में तर्क को व्यवस्थित किया जा सके। यह डिज़ाइन न्यूरल भाषा जनरेशन को प्रतीकात्मक संबंधी संरचना से जोड़ता है, जिससे कारण संबंधों को निर्मित, निरीक्षित और पुनः उपयोग किया जा सकता है।

सामग्री विज्ञान और यांत्रिकी साहित्य के 100 ओपन-एंडेड प्रश्नों पर, Graph-PRefLexOR संबंधित बेस मॉडलों की तुलना में 40-65% सुधार हासिल करता है, जिसमें तर्क की ट्रैसेबिलिटी में सबसे बड़ी वृद्धि होती है।
एम्बेडिंग विश्लेषण बेलाइनों की तुलना में व्यापक अर्थीय अन्वेषण और लगभग 2-3 गुना अधिक अर्थीय विविधता दिखाते हैं।
अर्थीय बैकट्रैकिंग और परत-वार हIDDEN-स्टेट विश्लेषण संरचित तर्क और अंतिम उत्तरों के बीच मजबूत एलाइनमेंट को और भी स्पष्ट करते हैं।
टेस्ट-टाइम ग्राफ एक्सपेंशन दिखाता है कि अतिरिक्त कंप्यूट मुख्य रूप से एक सीमित अर्थीय स्थान के भीतर लंबी दूरी की अवधारणात्मक पुनर्संयोजन को बढ़ाता है, न कि केवल अर्थीय कवरेज का विस्तार।

ये परिणाम सामग्री डिज़ाइन और अन्य वैज्ञानिक अनुप्रयोगों में वैज्ञानिक परिकल्पना जनरेशन के लिए व्याख्या योग्य AI प्रणालियों की ओर एक मार्ग के रूप में ग्राफ-नेटिव रीइन्फोर्समेंट लर्निंग को स्थापित करते हैं।