Новый метод использует синтез программ для генерации программ на языке Python, которые воспроизводят паттерны внимания в моделях трансформеров. Более 999 таких программ достигают более чем 75% схожести по пересечению-объединению на TinyStories, и замена 25% голов внимания этими программами приводит к росту перплексности на 16%, при этом сохраняется производительность на задачах ответа на вопросы.