VASAE: Nombrar direcciones del diccionario SAE con anclaje alineado al vocabulario

Los autores presentan el Autoencoder Disparo Alineado al Vocabulario (VASAE), un método que entrena características de autoencoder disparo utilizando anclaje alineado al vocabulario para asignar a cada característica un nombre de token intrínseco basado en la incrustación más cercana en el vocabulario del Transformer.

VASAE asigna nombres de token intrínsecos sin reducir la calidad de reconstrucción en comparación con los SAE estándar.
En las capas 0--10 de GPT-2-small, aproximadamente el 90% de las características se alinean con tokens utilizando un puntaje de corte de 0.8.
Los diccionarios de capa superficial de Llama-3.1-8B contienen un 92.8% de características fuertemente alineadas, mientras que la alineación en la capa final es limitada.
Los estudios de caso indican que los nombres de token intrínsecos restantes son relevantes para los tokens de entrada cercanos después de restar los códigos dispersos medios a nivel de oración.

Este enfoque conecta las características aprendidas con nombres de token intrínsecos durante el entrenamiento, complementando la interpretación posterior al aprendizaje de diccionarios aprendidos.