Graph-PRefLexOR menggunakan RL asli-graf untuk meningkatkan generasi hipotesis yang dapat dilacak

Peneliti mengembangkan Graph-PRefLexOR, sebuah keluarga model penalaran asli-graf yang di-fine-tune dengan Group Relative Policy Optimization (GRPO) untuk mengorganisir penalaran menjadi fase-fase eksplisit bagi eksplorasi mekanisme dan sintesis hipotesis. Desain ini menghubungkan generasi bahasa saraf dengan struktur relasional simbolik, memungkinkan koneksi kausal dibangun, diperiksa, dan digunakan kembali.

Pada 100 pertanyaan terbuka dari literatur ilmu material dan mekanika, Graph-PRefLexOR mencapai peningkatan 40-65% dibandingkan model dasar yang sesuai, dengan kenaikan terbesar dalam keterlacakan penalaran.
Analisis embedding menunjukkan eksplorasi semantik yang lebih luas dan keberagaman semantik sekitar 2-3 kali lebih besar daripada baseline.
Backtracking semantik dan analisis keadaan tersemburuh per lapisan lebih lanjut menunjukkan keselarasan yang lebih kuat antara penalaran terstruktur dan jawaban akhir.
Ekspansi graf saat pengujian mengungkapkan bahwa komputasi tambahan terutama meningkatkan rekombinasi konseptual jarak jauh dalam ruang semantik terbatas, bukan sekadar memperluas cakupan semantik.

Hasil-hasil ini menetapkan pembelajaran penguatan asli-graf sebagai jalur menuju sistem AI yang dapat diinterpretasikan untuk generasi hipotesis ilmiah dalam desain material dan aplikasi ilmiah lainnya.