Новый метод использует синтез программ для генерации программ на языке Python, которые воссоздают паттерны внимания в моделях трансформеров. Такие программы достигают среднего значения пересечения по объединению более 75% на отложенных данных и могут заменить до 25% голов внимания с минимальным влиянием на производительность модели, увеличивая перплексность в среднем на 16%.
Разбор внимания трансформера с помощью исполняемых программ
Переведено с English → Русский