Gráficos de razonamiento clínico: evaluación estructurada del razonamiento diagnóstico de LLMs revela competencia sin consistencia

Este estudio introduce gráficos de razonamiento clínico para evaluar los patrones de razonamiento diagnóstico de modelos de lenguaje grandes, revelando que, aunque logran competencia, carecen de esquemas de razonamiento consistentes. Los autores extrajeron representaciones gráficas estructuradas a partir de 750 trazos en cinco LLMs y probaron la existencia de patrones de razonamiento estables en casos clínicamente similares.

Los gráficos de razonamiento clínico utilizan una ontología fundamentada en el dominio con 5 tipos de nodos y 7 tipos de aristas para representar los trazos diagnósticos de LLMs.
El análisis de 750 trazos de cinco LLMs en casos de Conferencias Clinicopatológicas del NEJM no encontró diferencias significativas en la similitud gráfica entre casos clínicamente similares y disímiles.
La similitud gráfica fue casi idéntica para pares de modelos que fueron tanto correctos (0.488) como incorrectos (0.484).
El uso de prompting con reflexión estructurada aumentó el análisis explícito de características discriminatorias en un 33%, pero no mejoró la consistencia entre casos.

Los hallazgos indican que la precisión de la respuesta final debe complementarse con una evaluación a nivel de proceso para distinguir el razonamiento estable del emparejamiento de patrones, y los autores liberan su ontología, pipeline y artefactos como recursos para la evaluación estructurada.