Un nuevo método utiliza síntesis de programas para generar programas en Python que reproducen los patrones de atención en modelos Transformer. Estos programas logran más del 75% de similitud promedio Intersection-over-Union en datos no vistos y pueden reemplazar hasta el 25% de las cabezas de atención con impacto mínimo en el rendimiento del modelo, aumentando la perplexidad solo un 16% en promedio.