Независимый исследователь проанализировал эволюцию скрытых представлений во время инференса на семи моделях с открытым весом, включая GPT-2, OPT-125M и Llama-3.2-1B, чтобы выявить внутренние динамические режимы за пределами стандартных бенчмарков вывода.

  • Траектории скрытых состояний демонстрируют воспроизводимые функциональные прокси-состояния, такие как синтаксическая обработка и поведение, похожее на принятие решений, что позволяет кластеризовать их по внутренней динамике, а не по количеству параметров.
  • Линейные зонды декодируют функциональные категории из скрытых представлений с высокой точностью, хотя эта производительность падает при перестановке меток, использовании случайных гауссовых входных данных или перестановке признаков.
  • Ортогональные вращения скрытого пространства сохраняют производительность декодирования, что указывает на то, что информация закодирована в относительной геометрии представлений, а не в отдельных нейронах или измерениях.
  • Функциональные сигнатуры появляются на разных абсолютных слоях в различных архитектурах, что предполагает, что вычисления организованы как эволюционирующие функциональные режимы, а не как фиксированные синтаксические или семантические слои.

Автор ищет критическую обратную связь от экспертов в области механистической интерпретируемости и обучения представлений для проверки этих эмпирических наблюдений и определения необходимых контрольных экспериментов.