Los investigadores presentan Epi2Diff, un marco que mapea las trazas de Modelos de Razonamiento Grande (LRM) en secuencias de episodios fundamentadas cognitivamente para predecir la dificultad de los ítems humanos en evaluación educativa. Al modelar la dificultad a través de la escala de razonamiento, la asignación de esfuerzo y las transiciones de estado, el método proporciona una alternativa interpretable a la costosa calibración humana.
- Epi2Diff agrupa segmentos de traza en estados funcionales de resolución de problemas para extraer características dinámicas de episodio compactas combinadas con representaciones semánticas de los ítems.
- Los experimentos en cuatro conjuntos de datos del mundo real muestran un rendimiento consistente superior a las líneas base, incluyendo modelos de lenguaje pequeños ajustados y aprendizaje in-contexto de LLM.
- En benchmarks de clasificación derivados del SAT, Epi2Diff logra una ganancia relativa promedio del 8.1% sobre las líneas base de ajuste fino de LLM supervisado.
- El análisis revela que los ítems más difíciles inducen dinámicas de episodio más esforzadas, iterativas y centradas en la implementación, en lugar de simplemente respuestas más largas.
Este enfoque demuestra que los episodios cognitivos en las trazas de razonamiento ofrecen una representación del proceso predictiva e interpretable para la medición educativa.