Гипотеза разделения предсказания состояния улучшает эффективность Трансформера

Исследователи предлагают гипотезу разделения предсказания состояния, утверждая, что разделение предсказания следующего токена и хранения состояния дает лучшие результаты языкового моделирования. Они разработали вариант Трансформера с двумя вычислительными потоками для разделения этих функций и провели эксперименты по предварительному обучению на различных масштабах.

Предлагаемая архитектура последовательно обеспечивает лучшую эффективность использования данных и вычислений по сравнению со стандартными Трансформерами.
Она улучшает валидационные потери во время предварительного обучения.
Она превосходит стандартные Трансформеры в среднем на 2--3 процентных пункта на задачах последующей обработки.
Эмпирический анализ исключает смешивающие факторы и демонстрирует фундаментальные различия в градиентах, обусловленных этой архитектурой.

Авторы считают это значимым, поскольку это предоставляет метод улучшения производительности модели через архитектурное разделение вычислительных ролей.