Peneliti mengembangkan Graph-PRefLexOR, sebuah keluarga model penalaran asli-graf yang di-fine-tune dengan Group Relative Policy Optimization (GRPO) untuk mengorganisir penalaran menjadi fase-fase eksplisit bagi eksplorasi mekanisme dan sintesis hipotesis. Desain ini menghubungkan generasi bahasa saraf dengan struktur relasional simbolik, memungkinkan koneksi kausal dibangun, diperiksa, dan digunakan kembali.

  • Pada 100 pertanyaan terbuka dari literatur ilmu material dan mekanika, Graph-PRefLexOR mencapai peningkatan 40-65% dibandingkan model dasar yang sesuai, dengan kenaikan terbesar dalam keterlacakan penalaran.
  • Analisis embedding menunjukkan eksplorasi semantik yang lebih luas dan keberagaman semantik sekitar 2-3 kali lebih besar daripada baseline.
  • Backtracking semantik dan analisis keadaan tersemburuh per lapisan lebih lanjut menunjukkan keselarasan yang lebih kuat antara penalaran terstruktur dan jawaban akhir.
  • Ekspansi graf saat pengujian mengungkapkan bahwa komputasi tambahan terutama meningkatkan rekombinasi konseptual jarak jauh dalam ruang semantik terbatas, bukan sekadar memperluas cakupan semantik.

Hasil-hasil ini menetapkan pembelajaran penguatan asli-graf sebagai jalur menuju sistem AI yang dapat diinterpretasikan untuk generasi hipotesis ilmiah dalam desain material dan aplikasi ilmiah lainnya.