연구자들은 Group Relative Policy Optimization (GRPO)로 파인튜닝된 그래프 네이티브 추론 모델 패밀리를 개발했으며, 이는 메커니즘 탐색과 가설 합성을 위해 추론을 명시적인 단계로 조직화합니다. 이 설계는 신경 언어 생성과 기호적 관계 구조를 연결하여 인과 관계를 구축하고 검사하며 재사용할 수 있게 합니다.

  • 재료 과학 및 역학 문헌에서 온 100개의 오픈 엔드 질문에서 Graph-PRefLexOR은 해당 베이스 모델 대비 40-65%의 개선을 달성했으며, 가장 큰 향상은 추론 추적 가능성에서 나타났습니다.
  • 임베딩 분석은 베라인과 비교하여 더 넓은 의미 탐색과 약 2-3배 더 큰 의미 다양성을 보여줍니다.
  • 의미 백트래킹 및 계층별 은닉 상태 분석은 구조화된 추론과 최종 답변 간의 더 강한 정렬을 추가로 보여줍니다.
  • 테스트 시간 그래프 확장은 추가 컴퓨팅이 제한된 의미 공간 내에서 장기 개념적 재결합을 주로 증가시킨다는 것을 보여주며, 단순히 의미 커버리지를 확장하는 것이 아님을 나타냅니다.

이러한 결과는 재료 설계 및 기타 과학 응용 분야에서 과학적 가설 생성을 위한 해석 가능한 AI 시스템으로의 경로로서 그래프 네이티브 강화 학습을 확립했습니다.