Контекстно-готовый трансформер

Авторы представляют контекстно-готовый трансформер, архитектуру рекуррентной нейронной сети, которая предварительно контекстуализирует каждый токен перед его входом в D-слойный блок трансформера с помощью корректирующей сети.

Корректирующая сеть объединяет кэшированную сводку предыдущей позиции с эмбеддингом текущего токена для создания контекстуализированного входа.
Последовательный вывод работает как RNN, а при обучении процесс коррекции разворачивается K раз для параллельной обработки.
Предобученный трансформер можно преобразовать, добавив нулевую инициализацию корректирующего FFN и дообучив модель.
Модель с D=5 превосходит 12-слойный трансформер, генерируя данные в 1.7 раза быстрее на A100.
При K=10 однослойная модель (D=1) превосходит 6-слойный трансформер с ускорением вывода в 2.6 раза и достигает производительности параллельного варианта с разницей в PPL менее 0.01.
Архитектура наиболее выигрывает от широких представлений и длинных контекстов, решая все 10 уровней композиции на задаче pointer-chasing, где стандартные трансформеры терпят неудачу.

Этот подход позволяет значительно ускорить последовательный вывод, сохраняя или превосходя производительность более глубоких стандартных трансформерных моделей.