يستخدم Graph-PRefLexOR التعلم المعزز الأصلي للرسوم البيانية لتحسين توليد الفرضيات القابل للتتبع

طور الباحثون Graph-PRefLexOR، وهو عائلة من نماذج الاستدلال الأصلية للرسوم البيانية التي خضعت للضبط الدقيق باستخدام Group Relative Policy Optimization (GRPO) لتنظيم الاستدلال إلى مراحل صريحة لاستكشاف الآليات وتوليف الفرضيات. يربط هذا التصميم بين توليد اللغة العصبية والبنية العلائقية الرمزية، مما يتيح بناء الروابط السببية وفحصها وإعادة استخدامها.

على 100 سؤال مفتوح من أدبيات علوم المواد والميكانيكا، يحقق Graph-PRefLexOR تحسينات تتراوح بين 40-65% مقارنة بنماذج الأساس المقابلة، مع أكبر المكاسب في قابلية تتبع الاستدلال.
تظهر تحليلات التضمين استكشافاً دلاليًا أوسع وتنوعًا دلاليًا أكبر بحوالي 2-3 مرات من الخطوط الأساسية.
يُظهر تتبع الدلالة العكسي وتحليلات الحالات المخفية على مستوى الطبقات مزيدًا من التطابق الأقوى بين الاستدلال المنظم والإجابات النهائية.
يكشف توسيع الرسم البياني أثناء الاختبار أن الحوسبة الإضافية تزيد بشكل أساسي من إعادة التركيب المفاهيمي طويل المدى داخل فضاء دلالي محدود، بدلاً من مجرد توسيع التغطية الدلالية.

تؤسس هذه النتائج التعلم المعزز الأصلي للرسوم البيانية كطريق نحو أنظمة ذكاء اصطناعي قابلة للتفسير لتوليد الفرضيات العلمية في تصميم المواد وتطبيقات علمية أخرى.