Авторы представляют Vocabulary-Aligned Sparse Autoencoder (VASAE), метод, который обучает признаки разреженного автоэнкодера с использованием привязки к словарю для присвоения каждому признаку внутреннего имени токена на основе ближайшего вложения в словаре Трансформера.
- VASAE присваивает внутренние имена токенов без снижения качества реконструкции по сравнению со стандартными SAE.
- В слоях 0--10 GPT-2-small примерно 90% признаков совпадают с токенами при пороге 0.8.
- Словари мелких слоев Llama-3.1-8B содержат 92.8% сильно выровненных признаков, тогда как выравнивание в финальных слоях ограничено.
- Кейс-стади показывают, что оставшиеся внутренние имена токенов релевантны близким входным токенам после вычитания среднего разреженного кода уровня предложения.
Этот подход связывает изученные признаки с внутренними именами токенов во время обучения, дополняя постфактум интерпретацию изученных словарей.