ThinkProbe es un marco para el análisis estructural de las trazas de razonamiento de modelos de lenguaje grandes, convirtiéndolas en Grafos de Pensamiento dirigidos con ocho tipos de nodos y seis tipos de aristas. Deriva un perfil cognitivo de cinco dimensiones basado en 19 métricas a través de una pipeline completamente no generativa que combina segmentación basada en reglas y vinculación semántica discriminativa.
- Aplicado a 4,200 trazas de siete modelos nativos de razonamiento en 200 preguntas abiertas y diez dominios cognitivos.
- Revela que la estructura del razonamiento es una propiedad estable a nivel de modelo, donde la varianza entre modelos supera hasta cuatro veces la varianza entre dominios.
- La dimensión estructural muestra sensibilidad genuina al dominio de la pregunta, exponiendo perfiles cognitivos cualitativamente distintos invisibles para la evaluación basada en precisión.
El estudio demuestra que el perfilado estructural proporciona información sobre la cognición del modelo que no es capturada por las métricas de precisión tradicionales.