연구자들은 다음 토큰 예측과 상태 저장을 분리하는 것이 언어 모델 성능을 향상시킨다고 주장하며 상태 예측 분리 가설을 제안했습니다. 그들은 이 두 기능을 분리하기 위해 두 개의 계산 스트림을 사용하는 Transformer 변형을 설계하고 다양한 규모에서 사전 학습 실험을 수행했습니다.

  • 제안된 아키텍처는 표준 Transformer와 비교하여 데이터 및 컴퓨팅 효율성에서 일관되게 더 나은 성능을 제공합니다.
  • 사전 학습 중 검증 손실이 개선됩니다.
  • 하류 작업에서 평균적으로 표준 Transformer보다 2--3 퍼센트 포인트 더 우수합니다.
  • 경험적 분석은 혼란 변수를 배제하고 이 설계에 수반되는 그래디언트의 근본적인 차이를 입증합니다.

저자들은 이것이 계산 역할의 아키텍처적 분리를 통해 모델 성능을 향상시키는 방법을 제공하므로 이를 중요하게 여깁니다.