단일 트랜스포머 레이어 학습으로 전체 파라미터 RL의 이득 대부분 회복

대규모 언어 모델에서 강화 학습(RL) 사후 훈련 시 모든 레이어가 동등하게 기여한다는 가정에 의문을 제기하는 체계적인 연구. 저자들은 단일 트랜스포머 레이어를 학습시키는 것만으로도 전체 파라미터 RL로 달성한 이득의 대부분을 회복할 수 있으며, 경우에 따라 이를 초과할 수 있음을 발견했습니다.

연구자들은 "레이어 기여도"를 도입하여 고립된 레이어 학습으로 전체 RL 개선분이 얼마나 회복되는지를 측정합니다.
Qwen3 및 Qwen2.5 패밀리에서 7개의 모델에 대해 GRPO, GiGPO, Dr. GRPO 알고리즘을 사용할 때, 이득은 작은 하위 집합 또는 단일 레이어에 집중되어 있었습니다.
높은 기여도를 가진 레이어는 트랜스포머 스택의 중간 부분에 일관되게 집중되는 반면, 입력 및 출력 레이어는 훨씬 적은 기여를 합니다.
레이어 순위는 데이터셋, 작업, 모델 패밀리, RL 알고리즘 간에 강한 상관관계를 유지했습니다.

이 발견은 RL 적응이 균일하게 분포되어 있지 않고 모델 내 특정 구조적 영역에 집중되어 있음을 시사합니다.