arxiv arXiv cs.CL · 2 小时前 · 来源： 3 天前 · research

训练单个Transformer层可恢复大部分全参数RL收益

译自 English → 中文

一项系统性研究挑战了所有层对大型语言模型后训练强化学习（RL）贡献均等的假设。作者发现，训练单个Transformer层可以恢复全参数RL实现的大部分收益，有时甚至超越它。

研究人员引入“层贡献”来衡量通过孤立训练一个层所恢复的全RL改进比例。
在Qwen3和Qwen2.5家族的七个模型上，使用GRPO、GiGPO和Dr. GRPO算法，收益高度集中在少数几个或单个层中。
高贡献层始终集中在Transformer堆栈的中间部分，而输入和输出层的贡献显著较少。
层排名在数据集、任务、模型家族和RL算法之间保持强相关性。

这一发现表明，RL适应并非均匀分布，而是高度局部化于模型的特定结构区域中。

重要性 1/3 arXiv cs.CL Research paper Training methods