Анализ динамики скрытых состояний в 7 моделях LLM с открытым весом выявляет повторяющиеся функциональные паттерны

Независимый исследователь проанализировал эволюцию скрытых представлений во время инференса на семи моделях с открытым весом, включая GPT-2, OPT-125M и Llama-3.2-1B, чтобы выявить внутренние динамические режимы за пределами стандартных бенчмарков вывода.

Траектории скрытых состояний демонстрируют воспроизводимые функциональные прокси-состояния, такие как синтаксическая обработка и поведение, похожее на принятие решений, что позволяет кластеризовать их по внутренней динамике, а не по количеству параметров.
Линейные зонды декодируют функциональные категории из скрытых представлений с высокой точностью, хотя эта производительность падает при перестановке меток, использовании случайных гауссовых входных данных или перестановке признаков.
Ортогональные вращения скрытого пространства сохраняют производительность декодирования, что указывает на то, что информация закодирована в относительной геометрии представлений, а не в отдельных нейронах или измерениях.
Функциональные сигнатуры появляются на разных абсолютных слоях в различных архитектурах, что предполагает, что вычисления организованы как эволюционирующие функциональные режимы, а не как фиксированные синтаксические или семантические слои.

Автор ищет критическую обратную связь от экспертов в области механистической интерпретируемости и обучения представлений для проверки этих эмпирических наблюдений и определения необходимых контрольных экспериментов.