Los autores presentan el Autoencoder Disparo Alineado al Vocabulario (VASAE), un método que entrena características de autoencoder disparo utilizando anclaje alineado al vocabulario para asignar a cada característica un nombre de token intrínseco basado en la incrustación más cercana en el vocabulario del Transformer.

  • VASAE asigna nombres de token intrínsecos sin reducir la calidad de reconstrucción en comparación con los SAE estándar.
  • En las capas 0--10 de GPT-2-small, aproximadamente el 90% de las características se alinean con tokens utilizando un puntaje de corte de 0.8.
  • Los diccionarios de capa superficial de Llama-3.1-8B contienen un 92.8% de características fuertemente alineadas, mientras que la alineación en la capa final es limitada.
  • Los estudios de caso indican que los nombres de token intrínsecos restantes son relevantes para los tokens de entrada cercanos después de restar los códigos dispersos medios a nivel de oración.

Este enfoque conecta las características aprendidas con nombres de token intrínsecos durante el entrenamiento, complementando la interpretación posterior al aprendizaje de diccionarios aprendidos.