VASAE: Именование направлений словаря SAE с помощью привязки к словарю

Авторы представляют Vocabulary-Aligned Sparse Autoencoder (VASAE), метод, который обучает признаки разреженного автоэнкодера с использованием привязки к словарю для присвоения каждому признаку внутреннего имени токена на основе ближайшего вложения в словаре Трансформера.

VASAE присваивает внутренние имена токенов без снижения качества реконструкции по сравнению со стандартными SAE.
В слоях 0--10 GPT-2-small примерно 90% признаков совпадают с токенами при пороге 0.8.
Словари мелких слоев Llama-3.1-8B содержат 92.8% сильно выровненных признаков, тогда как выравнивание в финальных слоях ограничено.
Кейс-стади показывают, что оставшиеся внутренние имена токенов релевантны близким входным токенам после вычитания среднего разреженного кода уровня предложения.

Этот подход связывает изученные признаки с внутренними именами токенов во время обучения, дополняя постфактум интерпретацию изученных словарей.