Marco Explicable Multi-etapa para la Detección de Trastornos Cognitivos Basada en Voz

Los investigadores proponen un marco de explicabilidad multi-etapa que traduce las predicciones de caja negra del transformer en narrativas fundamentadas clínicamente para la detección de trastornos cognitivos basada en voz. El sistema integra la atribución de tokens basada en SHAP, características lingüísticas y una tubería de razonamiento LLM para mapear las salidas del modelo a dimensiones cognitivo-lingüísticas específicas.

Construido sobre el modelo de detección multimodal SpeechCARE-Adaptive Gating Network con una puntuación F1 de 72.11% en el benchmark NIA PREPARE.
Utiliza una tubería de razonamiento LLM de cuatro etapas impulsada por LLaMA-3.1-70B-Instruct para generar narrativas clínicas.
Mapea las predicciones a cuatro dimensiones cognitivo-lingüísticas, incluyendo riqueza léxica, complejidad sintáctica y coherencia semántica.
La evaluación de médicos en 70 muestras estratificadas en inglés mostró una fuerte alineación con los perfiles cognitivos a nivel de paciente.
Alcanzó una puntuación de Escala de Usabilidad del Sistema de 82/100, lo que indica un alto potencial para la integración en el flujo de trabajo clínico.