Исследователи предлагают гипотезу разделения предсказания состояния, утверждая, что разделение предсказания следующего токена и хранения состояния дает лучшие результаты языкового моделирования. Они разработали вариант Трансформера с двумя вычислительными потоками для разделения этих функций и провели эксперименты по предварительному обучению на различных масштабах.

  • Предлагаемая архитектура последовательно обеспечивает лучшую эффективность использования данных и вычислений по сравнению со стандартными Трансформерами.
  • Она улучшает валидационные потери во время предварительного обучения.
  • Она превосходит стандартные Трансформеры в среднем на 2--3 процентных пункта на задачах последующей обработки.
  • Эмпирический анализ исключает смешивающие факторы и демонстрирует фундаментальные различия в градиентах, обусловленных этой архитектурой.

Авторы считают это значимым, поскольку это предоставляет метод улучшения производительности модели через архитектурное разделение вычислительных ролей.