一项系统性研究挑战了所有层对大型语言模型后训练强化学习(RL)贡献均等的假设。作者发现,训练单个Transformer层可以恢复全参数RL实现的大部分收益,有时甚至超越它。

  • 研究人员引入“层贡献”来衡量通过孤立训练一个层所恢复的全RL改进比例。
  • 在Qwen3和Qwen2.5家族的七个模型上,使用GRPO、GiGPO和Dr. GRPO算法,收益高度集中在少数几个或单个层中。
  • 高贡献层始终集中在Transformer堆栈的中间部分,而输入和输出层的贡献显著较少。
  • 层排名在数据集、任务、模型家族和RL算法之间保持强相关性。

这一发现表明,RL适应并非均匀分布,而是高度局部化于模型的特定结构区域中。