Graph-PRefLexOR использует графовый RL для улучшения генерации прослеживаемых гипотез

Исследователи разработали Graph-PRefLexOR, семейство графово-нативных моделей рассуждений, дообученных с помощью Group Relative Policy Optimization (GRPO) для организации рассуждения на явные фазы исследования механизма и синтеза гипотез. Эта архитектура связывает нейронную генерацию языка со символической реляционной структурой, позволяя конструировать, проверять и повторно использовать причинно-следственные связи.

На 100 открытых вопросов из литературы по материаловедению и механике Graph-PRefLexOR демонстрирует улучшение на 40–65% по сравнению с базовыми моделями, при этом наибольший прогресс наблюдается в прослеживаемости рассуждений.
Анализ внедрений показывает более широкое семантическое исследование и примерно в 2–3 раза большую семантическую разнообразность по сравнению с базовыми моделями.
Анализ семантического бэктрекинга и скрытых состояний по слоям дополнительно демонстрирует более сильное соответствие между структурированными рассуждениями и окончательными ответами.
Расширение графа во время тестирования показывает, что дополнительные вычисления в основном увеличивают дальнюю концептуальную рекомбинацию в пределах ограниченного семантического пространства, а не просто расширяют охват семантики.

Эти результаты устанавливают графово-нативное обучение с подкреплением как путь к интерпретируемым ИИ-системам для генерации научных гипотез в материаловедении и других научных приложениях.