Los autores presentan el Autoencoder Disparo Alineado al Vocabulario (VASAE), un método que entrena características de autoencoder disparo utilizando anclaje alineado al vocabulario para asignar a cada característica un nombre de token intrínseco basado en la incrustación más cercana en el vocabulario del Transformer.
- VASAE asigna nombres de token intrínsecos sin reducir la calidad de reconstrucción en comparación con los SAE estándar.
- En las capas 0--10 de GPT-2-small, aproximadamente el 90% de las características se alinean con tokens utilizando un puntaje de corte de 0.8.
- Los diccionarios de capa superficial de Llama-3.1-8B contienen un 92.8% de características fuertemente alineadas, mientras que la alineación en la capa final es limitada.
- Los estudios de caso indican que los nombres de token intrínsecos restantes son relevantes para los tokens de entrada cercanos después de restar los códigos dispersos medios a nivel de oración.
Este enfoque conecta las características aprendidas con nombres de token intrínsecos durante el entrenamiento, complementando la interpretación posterior al aprendizaje de diccionarios aprendidos.