ThinkProbe — это фреймворк для структурного анализа следов рассуждений больших языковых моделей, преобразующий их в направленные Графы Мыслей с восемью типами узлов и шестью типами ребер. Он выводит пятимерный когнитивный профиль из 19 метрик через полностью нефункциональный конвейер, сочетающий сегментацию на основе правил и дискриминационное семантическое связывание.
- Применен к 4200 следам от семи нативных моделей рассуждений по 200 открытым вопросам в десяти когнитивных доменах.
- Выявляет, что структура рассуждений является стабильным свойством уровня модели, где дисперсия между моделями превышает дисперсию между доменами вплоть до четырехкратного значения.
- Измерение структуры демонстрирует подлинную чувствительность к домену вопроса, обнажая качественно различные когнитивные профили, невидимые для оценки на основе точности.
Исследование демонстрирует, что структурное профилирование дает представление о когнитивных процессах модели, которое не улавливается традиционными метриками точности.