Graph-PRefLexOR은 그래프 네이티브 RL을 사용하여 추적 가능한 가설 생성을 개선합니다

연구자들은 Group Relative Policy Optimization (GRPO)로 파인튜닝된 그래프 네이티브 추론 모델 패밀리를 개발했으며, 이는 메커니즘 탐색과 가설 합성을 위해 추론을 명시적인 단계로 조직화합니다. 이 설계는 신경 언어 생성과 기호적 관계 구조를 연결하여 인과 관계를 구축하고 검사하며 재사용할 수 있게 합니다.

재료 과학 및 역학 문헌에서 온 100개의 오픈 엔드 질문에서 Graph-PRefLexOR은 해당 베이스 모델 대비 40-65%의 개선을 달성했으며, 가장 큰 향상은 추론 추적 가능성에서 나타났습니다.
임베딩 분석은 베라인과 비교하여 더 넓은 의미 탐색과 약 2-3배 더 큰 의미 다양성을 보여줍니다.
의미 백트래킹 및 계층별 은닉 상태 분석은 구조화된 추론과 최종 답변 간의 더 강한 정렬을 추가로 보여줍니다.
테스트 시간 그래프 확장은 추가 컴퓨팅이 제한된 의미 공간 내에서 장기 개념적 재결합을 주로 증가시킨다는 것을 보여주며, 단순히 의미 커버리지를 확장하는 것이 아님을 나타냅니다.

이러한 결과는 재료 설계 및 기타 과학 응용 분야에서 과학적 가설 생성을 위한 해석 가능한 AI 시스템으로의 경로로서 그래프 네이티브 강화 학습을 확립했습니다.