대규모 언어 모델에서 강화 학습(RL) 사후 훈련 시 모든 레이어가 동등하게 기여한다는 가정에 의문을 제기하는 체계적인 연구. 저자들은 단일 트랜스포머 레이어를 학습시키는 것만으로도 전체 파라미터 RL로 달성한 이득의 대부분을 회복할 수 있으며, 경우에 따라 이를 초과할 수 있음을 발견했습니다.

  • 연구자들은 "레이어 기여도"를 도입하여 고립된 레이어 학습으로 전체 RL 개선분이 얼마나 회복되는지를 측정합니다.
  • Qwen3 및 Qwen2.5 패밀리에서 7개의 모델에 대해 GRPO, GiGPO, Dr. GRPO 알고리즘을 사용할 때, 이득은 작은 하위 집합 또는 단일 레이어에 집중되어 있었습니다.
  • 높은 기여도를 가진 레이어는 트랜스포머 스택의 중간 부분에 일관되게 집중되는 반면, 입력 및 출력 레이어는 훨씬 적은 기여를 합니다.
  • 레이어 순위는 데이터셋, 작업, 모델 패밀리, RL 알고리즘 간에 강한 상관관계를 유지했습니다.

이 발견은 RL 적응이 균일하게 분포되어 있지 않고 모델 내 특정 구조적 영역에 집중되어 있음을 시사합니다.