Исследователи предлагают гипотезу разделения предсказания состояния, утверждая, что разделение предсказания следующего токена и хранения состояния дает лучшие результаты языкового моделирования. Они разработали вариант Трансформера с двумя вычислительными потоками для разделения этих функций и провели эксперименты по предварительному обучению на различных масштабах.
- Предлагаемая архитектура последовательно обеспечивает лучшую эффективность использования данных и вычислений по сравнению со стандартными Трансформерами.
- Она улучшает валидационные потери во время предварительного обучения.
- Она превосходит стандартные Трансформеры в среднем на 2--3 процентных пункта на задачах последующей обработки.
- Эмпирический анализ исключает смешивающие факторы и демонстрирует фундаментальные различия в градиентах, обусловленных этой архитектурой.
Авторы считают это значимым, поскольку это предоставляет метод улучшения производительности модели через архитектурное разделение вычислительных ролей.