Epi2Diff: Использование трасс рассуждений LLM для предсказания сложности заданий для человека

Исследователи представляют Epi2Diff, фреймворк, который отображает трассы Large Reasoning Model (LRM) в когнитивно обоснованные эпизодические последовательности для предсказания сложности заданий для человека в образовательной оценке. Моделируя сложность через масштаб рассуждений, распределение усилий и переходы состояний, метод предоставляет интерпретируемую альтернативу дорогостоящей человеческой калибровке.

Epi2Diff группирует сегменты трасс в функциональные состояния решения задач для извлечения компактных эпизодически-динамических признаков, объединенных с семантическими представлениями заданий.
Эксперименты на четырех реальных наборах данных показывают стабильное превосходство над базовыми методами, включая дообученные малые языковые модели и LLM in-context learning.
На классификационных бенчмарках, полученных из SAT, Epi2Diff достигает среднего относительного прироста в 8.1% по сравнению с базовыми методами дообучения LLM.
Анализ показывает, что более сложные задания вызывают более напряженные, итеративные и ориентированные на реализацию эпизодические динамики, а не просто более длинные ответы.

Этот подход демонстрирует, что когнитивные эпизоды в трассах рассуждений предлагают предсказуемое и интерпретируемое представление процесса для образовательного измерения.