Авторы представляют контекстно-готовый трансформер, архитектуру рекуррентной нейронной сети, которая предварительно контекстуализирует каждый токен перед его входом в D-слойный блок трансформера с помощью корректирующей сети.
- Корректирующая сеть объединяет кэшированную сводку предыдущей позиции с эмбеддингом текущего токена для создания контекстуализированного входа.
- Последовательный вывод работает как RNN, а при обучении процесс коррекции разворачивается K раз для параллельной обработки.
- Предобученный трансформер можно преобразовать, добавив нулевую инициализацию корректирующего FFN и дообучив модель.
- Модель с D=5 превосходит 12-слойный трансформер, генерируя данные в 1.7 раза быстрее на A100.
- При K=10 однослойная модель (D=1) превосходит 6-слойный трансформер с ускорением вывода в 2.6 раза и достигает производительности параллельного варианта с разницей в PPL менее 0.01.
- Архитектура наиболее выигрывает от широких представлений и длинных контекстов, решая все 10 уровней композиции на задаче pointer-chasing, где стандартные трансформеры терпят неудачу.
Этот подход позволяет значительно ускорить последовательный вывод, сохраняя или превосходя производительность более глубоких стандартных трансформерных моделей.