Графы клинического мышления: структурированная оценка диагностического рассуждения LLM выявляет компетентность без согласованности

В данном исследовании представлены графы клинического мышления для оценки паттернов диагностического рассуждения больших языковых моделей, показывающие, что хотя они демонстрируют компетентность, им не хватает согласованных схем рассуждения. Авторы извлекли структурированные графовые представления из 750 трассировок по пяти LLM и проверили наличие стабильных паттернов рассуждения в клинически схожих случаях.

Графы клинического мышления используют онтологию, основанную на предметной области, с 5 типами узлов и 7 типами ребер для представления трассировок диагностического рассуждения LLM.
Анализ 750 трассировок пяти LLM на случаях из конференций NEJM Clinicopathological Conference не выявил значимой разницы в графовом сходстве между клинически схожими и несхожими случаями.
Графовое сходство было практически идентичным для пар моделей, которые были как правильными (0.488), так и неправильными (0.484).
Структурированное рефлексивное промптирование увеличило явный анализ дифференцирующих признаков на 33%, но не улучшило согласованность между случаями.

Результаты указывают на то, что точность окончательного ответа должна дополняться оценкой на уровне процесса, чтобы отличить стабильное рассуждение от сопоставления паттернов, а авторы публикуют свою онтологию, пайплайн и артефакты в качестве ресурсов для структурированной оценки.