Ingeniería inversa de la atención del Transformer con programas ejecutables
Un nuevo método utiliza síntesis de programas para generar programas en Python que reproducen los patrones de atención en modelos Transformer. Menos de 1,000 de estos programas logran una similitud de intersección sobre unión superior al 75% en TinyStories, y reemplazar el 25% de las cabezas de atención con estos programas aumenta la perplexidad solo un 16% mientras preserva el rendimiento en tareas de respuesta a preguntas.